CHB_RSW_Logo_mit_Welle_trans
Zeitschrift für Datenschutz | Banner

Wann passt die DS-GVO auf KI?

Dr. Axel Spies ist Rechtsanwalt bei Morgan Lewis & Bockius in Washington DC und Mitherausgeber der MMR.

MMR 2024, 289   Die neue KI-VO lässt die Anwendung der jetzt schon geltenden DS-GVO unberührt: It „[s]hould be without prejudice to existing Union law, notably on data protection“, heißt es u.a. in deren Erwägungsgründen. Leicht gesagt, aber schwer umzusetzen. In den vergangenen Heften der ZD und MMR gab es eine Reihe von lesenswerten Fachaufsätzen zur Anwendung der DS-GVO auf KI (Werry MMR 2023, 911; Pesch/Böhme MMR 2023, 917; Ashkar ZD 2023, 523; Dieker ZD 2024, 132). Die Autorinnen und Autoren zeigen durch die Bank auf, dass die Anwendung der DS-GVO mit jeder Menge Unsicherheiten behaftet ist. Es wird immer deutlicher, dass die DS-GVO nicht auf viele KI-Anwendungen passt: KI-Training ist eines der Gebiete mit den meisten DS-GVO-Tretminen. Das Thema wurde auch beim ZD/MMR-DialogCamp am 23.2.2024 heftig diskutiert.

Was passiert genau beim LLM-Training?

Besonders prägnant werden die Unsicherheiten bei der rechtlichen Erfassung des Trainings von großen KI-Sprachmodellen (LLM). Pesch/Böhme (MMR 2023, 917 (918)) beschreiben treffend, was genau beim LLM-Training passiert: „Ziel des Trainings ist, dass ein LLM Texteingaben um Worte oder Sätze ergänzen kann, die, gemessen an den Verteilungen in den Trainingsdaten, mit hoher Wahrscheinlichkeit im Kontext der Texteingabe vorkommen. Ein LLM wählt dabei nicht stets die Ergänzung mit der rechnerisch maximalen Wahrscheinlichkeit, um eine gewisse Variabilität der Ausgabe zuzulassen. Das Trainingsziel besteht also nicht in der Reproduktion bestimmter Trainingsdaten.“ Anders ausgedrückt, das KI-Training erfordert nicht, dass irgendwo personenbezogene Daten vom KI-Anbieter zB in einem Cache auf einem Server eines KI-Anbieters abgespeichert werden müssen, sondern es geht nur um die bestmögliche „Erzeugung hochwahrscheinlicher Textgefüge.“

Werry (MMR 2023, 911 (913)) meint, der EuGH habe für „Internetsuchmaschinen“ entschieden, dass diese trotz des Umstands, dass die Daten bereits öffentlich sind, „Verantwortliche für die erneute Verarbeitung iSd DS-GVO sind.“ Die Autorin schlussfolgert, dass dies entsprechend auch für „Anbieter von KI“ gelten müsse, die „diese Daten zu Trainingszwecken“ nutzen. Diese Argumentation ist nicht tragfähig. Im von der Autorin zitierten Fall der Internetsuchmaschinen (EuGH ZD 2014, 350) hat der EuGH vor gut 10 Jahren eine ganz andere Konstellation zu beurteilen gehabt: Die Vorlagefrage damals war nämlich, ob „die vorübergehende Speicherung der durch die Internetsuchmaschinen indexierten Informationen als Rückgriff auf Mittel iSv Art. 4 Abs. 1 lit. c RL 95/46/EG betrachtet werden muss“ (EuGH ZD 2014, 350 Rn. 28). Eine solche „vorübergehende Speicherung“ oder „Indexierung“ von personenbezogenen Daten findet beim o.g. LLM-Training gerade nicht statt. Die Einstufung von KI-Training als Verarbeitung iSd Art. 4 Nr. 2 DS-GVO ist keineswegs entschieden und stand damals wie heute auch nicht beim EuGH zur Entscheidung an.

„Verarbeitung“ nach der DS-GVO und LLM-Training

Ohne in der gebotenen Tiefe auf das Thema einzugehen, hier einige etwas provokante Gedanken zum LLM-Training: Der Begriff „Verarbeitung“ (Processing) stammt aus Art. 2 lit. b DS-RL, also aus einer Zeit als KI-Training und Machine Learning noch kaum eine Rolle gespielt haben. Vom Begriff her wird immer ein ausgeführter Vorgang oder eine auf eine menschliche Handlung zurückgehende Vorgangsreihe vorausgesetzt (Kühling/Buchner, DS-GVO BDSG/Herbst, 4. Aufl., DS-GVO Art. 4 Nr. 2 Rn. 14). In der englischen Fassung der DS-GVO kommt dieser Gedanke bei der Definition des Art. 4 Nr. 2 DS-GVO noch klarer zum Ausdruck. Verarbeitung ist danach „any operation or set of operations which is performed on personal data.“ Zur näheren Erläuterung findet man in der Definition diverse Beispiele von Verarbeitungsarten. Auf den Punkt gebracht: Mit den Daten muss etwas „passieren“ („performed on personal data“ in der englischen Fassung). Die o.g. Beschreibung des KI-Trainings durch Pesch/Böhme zeigt aber, dass LLM-Training möglich und üblich ist, ohne dass ein Erheben, Erfassen, Ordnen, Auslesen, Abfragen oder eine Organisation, Speicherung, Anpassung, Veränderung oder Verwendung von personenbezogenen iSd Art. 4 Nr. 2 DS-GVO stattfindet. Sinn und Zweck des LLM-Trainings ist vielmehr die Errechnung von Wahrscheinlichkeiten im neuronalen Netz der KI. Diese Wahrscheinlichkeiten selbst sind sicher keine personenbezogenen Daten im neuronalen Netz. Mit den öffentlich zugänglichen Trainingsdaten selbst geschieht nichts -- anders als bei der Anonymisierung von Datensätzen (zum Streitstand Hornung/Wagner ZD 2023, 224). Allenfalls wäre an ein „Abfragen“ (engl. consultation) von personenbezogenen Daten zu denken -- das Beispiel deckt den Fall ab, dass ein Datenträger gezielt anhand bestimmter Suchbegriffe durchsucht wird. Allerdings arbeitet zumindest das LLM-Training nicht mit bestimmten Suchbegriffen, sondern mit aufeinanderfolgenden Kontexten. Es werden beim LLM-Training keine personenbezogenen Daten erneut verarbeitet.

Da es aber beim LLM-Training nicht um die Wiedergabe der Daten geht, ist auch keine Speicherung derselben im neuronalen Netz nötig. Pesch/Böhme (MMR 2023, 917 (918)) vermeiden deshalb richtigerweise den DS-GVO-Begriff „Verarbeitung“ und belegen das LLM-Training mit dem neutraleren Begriff „Überführung von Informationen ... in die Parameter der Modelle.“ Und noch kurz zu einem anderen Subsumptionsvorschlag, den Dieker (ZD 2024, 132 (133)) vorbringt: „Selbst wenn die Sammlung nicht unter das Erheben, Erfassen oder Auslesen von Daten fallen würde, so ist zumindest doch der Auffangtatbestand des Verwendens gegeben.“ Damit springt man aber ebenfalls zu kurz: Auch beim Begriff „Verwenden“ geht es im Kern um das Nutzen personenbezogener Daten als einem Unterfall der Verarbeitung. „Nutzen“ hat vom Wortsinn immer eine subjektive Komponente -- der KI eines LLM ist es aber „egal“, ob seine Parameter mit personenbezogenen Daten oder nicht-personenbezogenen Daten trainiert werden. Die KI sollte nicht vermenschlicht werden.

Das soll nicht heißen, dass in manchen Fällen Generative KI personenbezogene Daten in den Antworten liefert. Den Kausalzusammenhang, wie genau diese personenbezogenen Daten durch Training in die KI hineingelangt sind, lässt sich wegen des Blackbox-Phänomens der KI nicht belegen. Anders ausgedrückt: Das bloße LLM-Training, das nach seinem Sinn und Zweck ohne eine Verarbeitung von Daten beim KI-Anbieter auskommt und auch subjektiv gar nicht auf die Verarbeitung von personenbezogenen Daten ausgerichtet ist, fällt nicht unter die DS-GVO. Anders ist es, wenn personenbezogene Trainingsdaten vom KI-Anbieter zB zwischengespeichert werden. Dann muss man eine „Verarbeitung“ bejahen. Gleiches gilt, wenn KI gezielt für bestimmte Fälle trainiert wird und ohne personenbezogene Daten nicht einsetzbar ist.

Probleme auch beim Personenbezug der Daten

Auch beim Personenbezug der Daten ist die DS-GVO kein Selbstläufer und vieles ist ungeklärt: Ashkar (ZD 2023, 524) führt dazu aus: „Bei KI-Anwendungen, bei denen die Verarbeitung nicht darauf ausgerichtet ist, die Personen zu identifizieren, deren Daten verarbeitet werden, [kann] Argumentationsspielraum gegen einen Personenbezug bestehen.“ Den Zweck bestimmt bei der Generativen KI aber deren Nutzer -- nicht der KI-Anbieter. Pesch/Böhme (MMR 2023, 917 (921)) kommen zu dem Schluss, dass bei KI-Textausgaben „in vielen dieser Fälle ... auch die Identifikation nach allgemeinem Ermessen wahrscheinlich“ sei. Ein zwingender Zusammenhang ist derzeit nicht nachgewiesen. Umgekehrt ist wegen der Struktur der KI nicht gewährleistet, dass bei Eingabe eines bestimmen Prompts ein eindeutig identifizierbares Ergebnis von der KI ausgeworfen wird. Vielmehr beruht das Ergebnis wie gesagt auf statistischen Korrelationen. Die KI kann den Bedeutungsgehalt der Daten nicht erfassen.

Viele andere DS-GVO-Themen sind weiter ungeklärt

Es gibt noch viele andere hier nur zu nennende DS-GVO-Baustellen bei der KI wie das „Recht auf Vergessenwerden“ (Machine-Unlearning) oder „Datenrichtigkeit“ bei KI. Fest steht zurzeit, dass die Anwendung der DS-GVO auf KI besser als bisher und sehr sorgsam begründet werden muss. Wie steht es um das Transparenzprinzip in der DS-GVO, wenn keiner genau erklären kann, wie die KI zu einem Ergebnis gelangt? Was gilt für die Datenportabilität bei neuen LLM-Funktionen, mit der Nutzer ihren Gesprächsverlauf für künftige Anfragen speichern können? Wie kann man die Wahrnehmung der Betroffenenrechte in Art. 22 Abs. 3 DS-GVO bei KI ermöglichen? Die Fragen belegen die faktischen Grenzen der Transparenz, die der Zielkonflikt zwischen Präzision und Verständlichkeit, technische Illiteralität der Betroffenen und das Blackbox-Phänomen der KI mit sich bringt. Anders als die neue KI-VO gibt die DS-GVO den KI-Verwendern keine inhaltlichen Angemessenheitsregeln vor, welche Angaben den Betroffenen über die KI mitgeteilt werden müssen und kann das auch nicht leisten.

Damit bleibt die Frage: Wo und wie kommen wir mit dem DS-GVO-Werkzeugkasten insbesondere bei den LLM weiter? Die Antwort: Die neue KI-VO ist der primäre Aufhänger, um die Betroffenen in der EU vor schweren Nachteilen der KI zu schützen, nicht die DS-GVO, die dafür in vielerlei Hinsicht nicht geeignet ist.

Washington DC, im April 2024

Anzeigen

MMR Werbung

IT-Recht Plus Premium

BECK Stellenmarkt

Teilen:

Menü