Prof. Dr. Louisa Specht-Riemenschneider/Dr. Vyacheslav Bortnikov/Sebastian Steffens
KIR 2025, 213 Zahlreiche KI-Modelle, insbesondere die derzeit viel diskutierten großen Sprachmodelle (Large Language Models LLMs), werden mit riesigen Datenmengen trainiert, die regelmäßig personenbezogene Daten enthalten. Durch das Training können diese personenbezogenen Daten in das KI-Modell einfließen. Die Trainingsdaten werden dabei nicht unmittelbar im Klartext in dem KI-Modell gespeichert; sie dienen vielmehr dazu, die Parameter im neuronalen Netz des KI-Modells anzupassen, insbesondere die Gewichte der Verknüpfungen zwischen den künstlichen Neuronen. Diese Parameter werden bei Nutzung des Modells in Form von Wahrscheinlichkeiten für die Generierung von Ausgaben verwendet. Sie beeinflussen hierdurch die Wahrscheinlichkeit, mit der eine bestimmte Ausgabe-Sequenz auf die vorhergehende folgt.
Eine starke Repräsentation von bestimmten Informationen in den Trainingsdaten führt somit zu einer hohen Wahrscheinlichkeit, dass das Modell diese Information später reproduziert. Dieses Phänomen wird als „Memorisierung“ bezeichnet (vgl. Hansen/Walczak KIR 2024, 82 (83) mwN). Entsprechend kommt der Europäische Datenschutzausschuss (EDSA) in seiner Stellungnahme 28/2024 v. 17.12.2024 zu dem Ergebnis, dass beim Training mit personenbezogenen Daten ein Personenbezug des KI-Modells nicht prinzipiell ausgeschlossen werden kann. Ob ein KI-Modell personenbezogen ist, ist insoweit im Einzelfall zu prüfen.
Ein solcher – im jeweiligen Einzelfall festzustellender – Personenbezug eines KI-Modells wirft Fragen nach den datenschutzrechtlichen Konsequenzen für dessen späteren Einsatz auf. Das gilt insbesondere für den Fall, dass das Training mit personenbezogenen Daten rechtswidrig erfolgte. Ist der Einsatz des Modells dann ebenfalls rechtswidrig? Gibt es, um mit Anna Bernzen zu sprechen, eine „Fruit of the poisonous KI“-Doktrin im Datenschutzrecht (Bernzen K&R-Beilage 2023, 6 11), also ein pauschales Verwendungsverbot für rechtswidrig trainierte KI-Modelle?
Ausschluss des Personenbezugs eines KI-Modells
Der wirksamste Ansatz, eine Perpetuierung des rechtswidrigen Trainings zu vermeiden, könnte in der Anonymisierung des KI-Modells bestehen. Wenn das KI-Modell keinen Personenbezug iSv Art. 4 Nr. 1 DS-GVO (mehr) aufweist, findet die DS-GVO keine Anwendung. Rechtlicher Anknüpfungspunkt für diesen Ansatz ist Erwägungsgrund 26 S. 3 DS-GVO, wonach zur Feststellung eines Personenbezugs „alle Mittel berücksichtigt werden [sollten], die von dem Verantwortlichen oder einer anderen Person nach allgemeinem Ermessen wahrscheinlich genutzt werden“. Es ist umstritten, auf wessen Perspektive insofern abzustellen ist, also ob diese Wahrscheinlichkeit relativ oder absolut zu bestimmen ist (zum Streitstand s. Simitis/Hornung/Spiecker gen. Döhmann, Datenschutzrecht, 2. Aufl. 2024, DS-GVO Art. 4 Nr. 1 Rn. 58-61).
Das EuG hat sich in einem Urteil v. 26.4.2023 für einen Mittelweg ausgesprochen (EuG Urt. v. 26.4.2023 – T-557/20 Rn. 97, 104). Der Generalanwalt am EuGH hat sich dieser Auffassung im darauffolgenden Rechtsmittelverfahren angeschlossen (Schlussantrag v. 6.2.2025 – C-413/23 P Rn. 56, 59). Eine endgültige Klärung durch den EuGH dürfte bald folgen.
Diesem Ansatz zur Bestimmbarkeit folgend ist es möglich, die Wahrscheinlichkeit einer Reproduktion der memorisierten Daten soweit zu verringern, dass sie praktisch ausgeschlossen ist, sodass das KI-Modell im konkreten Anwendungsfall keinen Personenbezug mehr aufweist. So sind Szenarien denkbar, in denen eine Beschränkung des Zugriffs auf die eigenen Mitarbeitenden die Wahrscheinlichkeit einer Datenextraktion erheblich senkt, weil intern mangels entsprechender IT-Kenntnisse keine Attacken auf das KI-Modell zu erwarten sind. Gemäß Erwägungsgrund 26 S. 4 DS-GVO sind für diese Bewertung fortlaufend die technologischen Entwicklungen zu berücksichtigen, was sowohl Maßnahmen zur Senkung der Extraktionswahrscheinlichkeit vonseiten des Entwicklers des KI-Modells als auch neue Extraktionsmöglichkeiten (Attacken) umfasst.
Verarbeitung memorisierter Daten
Die Vorgaben der DS-GVO knüpfen daran an, dass eine Verarbeitung der personenbezogenen Daten stattfindet. Im Zusammenhang mit personenbezogenen KI-Modellen wird regelmäßig angenommen, dass die memorisierten Daten bei Verwendung des Modells verarbeitet werden. Hier lohnt eine genauere Betrachtung, deren Ergebnis für die datenschutzrechtliche Bewertung der Verwendung von KI-Modellen relevant ist.
Der technische Hintergrund ist, dass jede Eingabe in Form eines Prompts eine Berechnung im KI-Modell auslöst, bei der die in Form von Parametern repräsentierten Daten Einfluss auf das Berechnungsergebnis nehmen. Löst also jeder Prompt eine Verarbeitung dieser Daten iSv Art. 4 Nr. 2 DS-GVO aus?
Nach der Rechtsprechung des EuGH ist der Begriff der Verarbeitung weit gefasst (EuGH Urt. v. 4.5.2023 – C-487/21 Rn. 27). Auch viele Stimmen in der Literatur verstehen da runter „sämtliche Formen des Umgangs mit personenbezogenen Daten“ (Simitis/Hornung/Spiecker gen. Döhmann, Datenschutzrecht, 2. Aufl. 2024, DS-GVO Art. 4 Nr. 2 Rn. 11). Das legt auf den ersten Blick nahe, diesen technischen Sachverhalt unter den Verarbeitungsbegriff zu subsumieren.
Es ist allerdings kritisch zu hinterfragen, ob ein solches Begriffsverständnis tatsächlich mit Blick auf Sinn und Zweck der Regelung gemeint sein kann. Auf den zweiten Blick zeigen sich außerdem Stimmen in der Literatur, die nicht etwa jeglichen Umgang mit einem personenbezogenen Datum, sondern lediglich die Nutzung seines Informationsgehalts als Verarbeitung begreifen (Kühling/Buchner/Herbst, 4. Aufl. 2024, DS-GVO Art. 4 Nr. 2 Rn. 28). Anders formuliert müsse sich der Verarbeitungsvorgang unmittelbar auf das personenbezogene Datum beziehen und dieses nicht lediglich mittelbar berühren (Conrad DuD 2021, 603). Ein solches restriktiveres Verständnis legt auch der Vergleich mit anderen Sprachfassungen von Art. 4 Nr. 2 DS-GVO nahe (vgl. Taeger/Gabel/Arning/Rothkegel, 4. Aufl. 2022, DS-GVO Art. 4 Rn. 66). Die Rechtslage ist an dieser Stelle insoweit unklar.
Aufgrund der Fraglichkeit von Verarbeitungen memorisierter Daten ist insoweit in Betracht zu ziehen, ob ein wirksamer Betroffenenschutz nicht besser anknüpfend an die Verarbeitung der Ausgaben des KI-Modells gewährleistet werden kann. Denn eine etwaige Reproduktion memorisierter Daten manifestiert sich zwangsläufig und ausschließlich in den Ausgaben. Berichtigungsansprüche können sich insoweit sowohl gegen die memorisierten als auch gegen die Ausgabe daten richten (Rosselo, LLM hallucinations and personal data accuracy: can they really co-exist?, European Law Blog v. 3.3. 2025, abrufbar unter: https://www.europeanlawblog.eu/pub/2klfhf06/release/1).
Verantwortlichkeit
Ein zentraler Bezugspunkt für datenschutzrechtliche Pflichten ist die Stellung eines Akteurs als Verantwortlicher gem. Art. 4 Nr. 7 DS-GVO.
Die Frage erfordert eine differenzierte Einzelfallbetrachtung des jeweiligen Anwendungsfalls, der konkreten Einbindung des KI-Modells in ein KI-System und der tatsächlichen Einflussmöglichkeiten des Verwenders.
Festgehalten werden kann bereits jetzt, dass es im Datenschutzrecht keinen Raum für eine pauschale „Fruit of the poisonous KI-Doktrin“ gibt. Denn zwischen den einzelnen Verarbeitungsphasen ist schon nach der Fashion-ID-Rechtsprechung klar zu trennen. Werden also für das KI-Training rechtswidrig Daten verarbeitet, ist derjenige, der über die Zwecke und Mittel der rechtswidrigen Datenverarbeitung entscheidet, verantwortlich – nicht aber pauschal auch derjenige, der die rechtswidrig trainierte KI nachnutzt. Daher können viele KI-Modelle genutzt werden, ohne Gefahr zu laufen, für ein möglicherweise rechtswidriges Training durch einen anderen im Vorfeld der Nutzung pauschal (mit-)verantwortlich zu sein.
Der Betreiber der KI ist aber selbstverständlich stets für die Verarbeitungen der Input- und Output-Daten verantwortlich sowie für ein eigenes Weitertrainieren des KI-Modells. Daher sollten Schutzmaßnahmen für die Betroffenen getroffen werden, die die Risiken für Betroffene der memorisierten Daten möglichst eindämmen (vgl. EDSA, Stellungnahme 28/2024 Rn. 97). Hierzu können je nach Einzelfall technische Maßnahmen gehören, zB Ein- und Ausgabefilter sowie Finetuning. Auch eine Abschottung des KI-Systems, interne Regeln zum Umgang mit KI-Systemen sowie die Sensibilisierung und Schulung der Zugriffsberechtigten können geeignet sein, Risiken abzusenken. Letztlich kann sich derjenige, der ein KI-Modell vorsätzlich rechtswidrig trainiert hat, nicht auf eine rechtmäßige Nutzung berufen dürfen. Das Verbot widersprüchlichen Verhaltens sollte als allgemeiner Rechtsgedanke auch im Datenschutzrecht gelten.
Prof. Dr. Louisa Specht-Riemenschneider ist die Bundesbeauftragte für
den Datenschutz und die Informationsfreiheit sowie Schriftleiterin der
KIR.
Dr. Vyacheslav Bortnikov ist Referatsleiter bei der Bundesbeauftragten für den Datenschutz und die Informationsfreiheit.
Sebastian Steffens ist Referent bei der Bundesbeauftragten für den Datenschutz und die Informationsfreiheit.


