Barbara Schmitz ist Rechtsanwältin für IT- und Datenschutzrecht bei der BAY GmbH, Wirtschaftsprüfungs- und Rechtsanwaltsgesellschaft in München sowie Mitglied im Wissenschaftsbeirat der ZD.
ZD 2025, 61 Nicht ganz unerwartet hat der Europäische Datenschutzausschuss (EDSA) eine Woche vor Heiligabend, am 18.12.2024, auf eine Anfrage der irischen Datenschutzaufsichtsbehörde (Irish Data Protection Commission - DPC; https://www.edpb.europa.eu/system/files/2024-12/ie-sa-article-64-2-request-re-ai-model-processing-redacted-en.pdf) seine Stellungnahme 28/2024 zu bestimmten Datenschutzaspekten bei der Verarbeitung personenbezogener Daten im Kontext von KI-Modellen veröffentlicht (https://www.edpb.europa.eu/our-work-tools/our-documents/opinion-board-art-64/opinion-282024-certain-data-protection-aspects_de). Wie so oft hat auch diese Stellungnahme ein gewisses Aufregungspotenzial. Doch auch diese Stellungnahme scheint hilfreicher zu sein, als ihr Ruf vermuten lässt - wie der folgende Blick auf die einzelnen Aspekte zeigen wird.
Datenschutzaspekte in-scope und out-of-scope
Mit der initialen Anfrage will die irische Aufsichtsbehörde einen harmonisierten Standpunkt innerhalb der EU zu grundlegenden datenschutzrechtlichen Fragen im Zusammenhang mit der Verarbeitung von personenbezogenen Daten bei der Entwicklung und dem Einsatz von KI-Modellen erhalten. Ausgehend von der konkreten Fragestellung der DPC gliedert der EDSA den Umfang der Stellungnahme in vier datenschutzrechtliche Teilaspekte. Danach beschäftigt sich der erste Fragenkomplex mit den Themen Personenbezug und Anonymisierung von Trainingsdaten in KI-Modellen, der zweite und dritte Komplex mit den möglichen Rechtsgrundlagen der Datenverarbeitung in KI-Modellen sowohl bei der Entwicklung als auch beim Einsatz, insbesondere dem berechtigten Interesse, und der vierte Abschnitt mit den Folgen einer rechtswidrigen Datenverarbeitung in der Entwicklungsphase (nicht beim Einsatz!) eines KI-Modells. Nicht Gegenstand der Prüfung sind
# die datenschutzrechtliche Bewertung des Art. 9 DS-GVO,
# die automatisierte Entscheidungsfindung nach Art. 22 DS-GVO,
# die Vereinbarkeitsprüfung bei Zweckänderungen nach Art. 6 Abs. 4 DS-GVO,
# die Anwendung einer Datenschutz-Folgenabschätzung (DSFA) und
# die Anwendung von Privacy-by-Design.
Der EDSA betont, dass diese fünf Datenschutzanforderungen grundsätzlich im Zusammenhang mit KI-Modellen zu berücksichtigen sind, jedoch bereits in Berichten und Leitlinien des EDSA bzw. der Art. 29-Datenschutzgruppe bewertet wurden (https://www.edpb.europa.eu/system/files/2024-05/edpb_20240523_report_chatgpt_taskforce_en.pdf; https://ec.europa.eu/newsroom/article29/items/612053; https://ec.europa.eu/newsroom/article29/items/611236/en).
Als Zwischenfazit ist festzuhalten, dass sich die Stellungnahme vorrangig mit der Analyse der Zulässigkeit der Datenverarbeitung in der Entwicklungs- und Nutzungsphase von KI-Modellen befasst, wobei die Frage des Personenbezugs von Trainingsdaten und die Prüfung des berechtigten Interesses als Rechtsgrundlage in diesem Zusammenhang genauer untersucht werden.
KI-Modell und Trainingsprozess
Für ein einheitliches Verständnis definiert der EDSA nachfolgende Schlüsselbegriffe, die für die Prüfung von Relevanz sind. Unter „First-party data“ werden Daten verstanden, die beim Betroffenen direkt erhoben werden (Direkterhebung), unter „Third-party data“ die Daten, die die Verantwortlichen von Dritten erhoben/erhalten haben (Dritterhebung), „beispielsweise von einem Daten-Broker oder durch Webscraping“. Unter „Webscraping“ wird die Technik verstanden, mit der Informationen aus öffentlich zugänglichen Online-Quellen gesammelt werden (collecting information from publicly available online sources). Diese Online-Quellen können zB Presse-Webseiten, soziale Medien, Diskussionsforen und persönliche Webseiten sein (news outlets, social media, forum discussions and personal websites).
Eine tiefergehende Betrachtung erfolgt für den Begriff „KI-Modell“. Die DPC bezieht sich in ihrer Anfrage auf das gemeinsame Verständnis eines KI-Modells aus der KI-VO (common understanding of an „AI Model“) und definiert ein KI-Modell als „Produkt der Ergebnisse von Trainingsprozessen, die im Kontext von Künstlicher Intelligenz, maschinellem Lernen, Deep Learning oder anderen verwandten Verarbeitungsumgebungen auf Trainingsdaten angewendet werden“. Der EDSA hält die Definition für enger als in der KI-VO, nimmt sie aber als Grundlage und beschränkt die Stellungnahme auf KI-Modelle, die aus personenbezogenen Daten trainiert wurden und in größere Systeme integriert sind. Zur Grundsatzfrage, ob ein KI-Modell personenbezogene Daten verarbeitet, zeigt der EDSA eine umsichtige Haltung und knüpft dies an die Anonymität der Trainingsdaten. Ist eine personenbeziehbare Wiedergewinnung (regurgitation) wahrscheinlich, gilt das Modell als nicht anonym und die DS-GVO findet Anwendung. Die Maßstäbe zur Feststellung der Anonymität orientieren sich dabei an den Vorgaben aus Erwägungsgrund 26 DS-GVO (reasonably likely). Zur Verdeutlichung unterscheidet der EDSA zwischen KI-Modellen, deren Schlussfolgerungen sich nicht auf die Personen beziehen, mit deren Daten das Modell trainiert wurde, und solchen KI-Modellen, die speziell darauf abzielen, aus den personenbezogenen Trainingsdaten Informationen zu gewinnen. Nach Ansicht des EDSA werden bei Letzteren bereits naturgemäß personenbezogene Daten verarbeitet und sie sind daher nicht als „anonym“ einzustufen, womit sie nicht unter den Prüfantrag der irischen Datenschutzaufsicht fallen.
Da der EDSA die in den Trainingsdatensätzen enthaltenen Informationen als „durch mathematische Objekte dargestellt“ bezeichnet (Rn. 31), ist anzunehmen, dass KI-Modelle als solche keine personenbezogenen Daten enthalten bzw. speichern. In diesem Sinne haben sich auch die dänische Datenschutzaufsicht in ihrem Leitfaden zum Einsatz von KI (https://www.datatilsynet.dk/Media/638321084132236143/Offentlige myndigheders brug af kunstig intelligens - Inden I går i gang.pdf) und der HmbBfDI in seinem Diskussionspapier zu LLMs und personenbezogenen Daten (https://datenschutz-hamburg.de/fileadmin/user_upload/HmbBfDI/Datenschutz/Informationen/240715_Diskussionspapier_HmbBfDI_KI_Modelle.pdf) geäußert.
Zusammenfassend bleibt festzuhalten, dass ein KI-Modell als anonym eingestuft werden kann und damit nicht (mehr) den Vorschriften der DS-GVO unterfällt. Voraussetzung dafür ist, dass die Anonymität nach vernünftigem Ermessen nicht wieder aufhebbar ist. Der EDSA bietet in den Rn. 49-75 eine Liste mit vier Kategorien zur Verringerung der Re-Identifizierungswahrscheinlichkeit. In der Kategorie „Modell-Design“ geht es um die Kriterien für Auswahl und Art der Quellen für die Trainingsphase. In den Kategorien „Modell-Analyse“ und „Modell-Tests“ steht die Robustheit der Anonymisierung im Fokus. Hier geht es um die Prüfung der Code-Reviews und um das Testen zur Vermeidung sog. „Privacy Attacks“ oder „Membership Inference Attacken“. Solche Attacken sind laut EDSA mit erheblichem zeitlichen und technischen Aufwand verbunden und zielen darauf ab, plausible Personeninformationen in den KI-Modellen wiederzugeben. Die vierte Kategorie beinhaltet die Rechenschaftspflicht. Obwohl die DSFA nicht direkt behandelt wird, gilt sie als relevantes Kriterium zur Risikominimierung und Dokumentation von Verarbeitungsvorgängen. Der EDSA weist ausdrücklich darauf hin, dass die aufgeführten Kriterien nicht abschließend sind und dass auch „andere Ansätze möglich sein können, wenn sie unter Berücksichtigung des Stands der Technik ein gleichwertiges Schutzniveau bieten“.
In drei Stufen zur Rechtsgrundlage des berechtigten Interesses
Im Weiteren befasst sich die Stellungnahme mit den Datenschutzgrundsätzen, den sich daraus ergebenden Betroffenenrechten sowie dem berechtigten Interesse als Rechtsgrundlage für die Datenverarbeitung bei der Entwicklung und dem Einsatz von KI-Modellen. Bemerkenswert und richtungsweisend ist der Hinweis auf die Informationspflichten der Verantwortlichen über die Verarbeitung personenbezogener Daten in KI-Modellen. Angesichts der Komplexität der KI-Technologie erkennt der EDSA an, dass in der Entwicklungsphase von KI-Modellen Daten aus öffentlich zugänglichen Quellen (zB Webscraping-Technik) erhoben und verarbeitet werden. In diesen Fällen hat sich die Informationspflicht des Verantwortlichen an den Vorgaben des Art. 14 DS-GVO (Erhebung durch Dritte) zu orientieren, der in Absatz 5 lit. b eine Ausnahme von der Informationspflicht nach Absatz 5 lit. b für den Fall vorsieht, dass die Information nicht oder nur mit unverhältnismäßigem Aufwand möglich ist. Der EDSB weist jedoch darauf hin, dass diese Ausnahme nur gilt, wenn alle Anforderungen dieser Regelung „vollständig erfüllt“ sind (strictly limited to when the requirements of this provision are fully met).“
Bei der Prüfung der Anwendbarkeit von Art. 6 Abs. 1 lit. f DS-GVO als Rechtsgrundlage für die Datenverarbeitung bei der Entwicklung und Nutzung von KI-Modellen stützt sich der EDSA auf die Drei-Stufen-Prüfung. Danach kann die Datenverarbeitung auf ein berechtigtes Interesse gestützt werden, wenn:
# der Verantwortliche ein berechtigtes Interesse wahrnehmen will,
# die Verarbeitung für dieses berechtigte Interesse erforderlich ist und
# die Rechte der betroffenen Person nicht überwiegen.
Als Beispiele für ein berechtigtes Interesse im Kontext von KI-Modellen werden KI-gestützte Gesprächsagenten im Kundenservice oder KI-gestützte Betrugs- oder Bedrohungserkennung genannt. Die Erforderlichkeit ist gegeben, wenn das verfolgte berechtigte Interesse mit der geplanten Datenverarbeitung wirksam möglich ist und keine mildere Alternative zum gleichen Erfolg führt. Als mildere Maßnahmen im Zusammenhang mit Webscraping werden zB die Beachtung von robots.txt- oder ai.txt-files oder ähnlichen Mechanismen aufgeführt.
Bei der Abwägung der gegenseitigen Interessen (balancing test) betont der EDSA die Bedeutung der vernünftigen Erwartung der Betroffenen an die Datenverarbeitung, wie in Erwägungsgrund 47 DS-GVO erläutert. Für die Beurteilung der vom Betroffenen vernünftigerweise zu erwartenden Datenverarbeitung werden hohe Anforderungen an die Transparenz und Information über die Datenverarbeitung gestellt, die - nach Ansicht des EDSA - über die der DS-GVO hinausgehen, da sie die vielfältigen Einsatzmöglichkeiten eines KI-Modells und die damit verbundene Datenverarbeitung berücksichtigen müssen.
Folgen rechtswidriger Datenverarbeitung in der Entwicklungsphase
Im letzten Prüfungsabschnitt der Stellungnahme zeigt der EDSA in drei Szenarien die möglichen Folgen einer rechtswidrigen Datenverarbeitung in der Entwicklungsphase eines KI-Modells auf. Die Unterschiede der Szenarien hängen davon ab, ob die (rechtswidrige) Entwicklung und anschließende Bereitstellung des KI-Modells bei einem Verantwortlichen bleibt oder der Einsatz des (rechtswidrig) entwickelten KI-Modells von einem anderen Verantwortlichen betrieben wird.
Es ist festzustellen, dass der EDSA auf den jeweiligen Einzelfall abstellt und kein generelles Nutzungsverbot aufstellt. Maßgebliche Faktoren, wie die Erwartungshaltung der Betroffenen an die Datenverarbeitung und die Prüfungspflicht jener Verantwortlichen, die das trainierte Modell übernehmen - Stichwort Konformitätserklärung - sind bei der Beurteilung des Einzelfalls zu berücksichtigen.
Fazit
Die EDSA-Stellungnahme 28/2024 zeichnet sich durch umsetzungsfähige Ansätze aus. Diese bieten nicht nur dem Adressatenkreis der Aufsichtsbehörden eine hilfreiche Orientierung bei der Prüfung von KI-Modellen, sondern unterstützen auch Anbieter und Nutzer bei der Entwicklung und Nutzung solcher Modelle.