Joerg Heidrich ist Justiziar des Heise Verlags sowie Partner und Fachanwalt für IT-Recht bei Heidrich Rechtsanwälte in Hannover.
MMR 2024, 919 Generative Künstliche Intelligenz (KI) stellt den wohl größten technischen Durchbruch des letzten Jahrzehnts dar. Umso wichtiger ist es, auch hierzulande einen gesetzlichen Regulierungsrahmen zu gestalten, der den Unternehmen und auch den Juristen größtmögliche Freiheiten bei der Adaption dieser Technik gewährt. Der europäische Gesetzgeber hat diese Gelegenheit zur Anpassung des Rechtsrahmens im Datenschutzbereich iRd KI-VO verpasst und bleibt seinem Mantra, „Die DS-GVO bleibt unberührt“, weiter treu.
Tatsächlich ist in vielen Branchen und Bereichen immer noch große Zurückhaltung bei der Nutzung von ChatGPT & Co. zu beobachten. Aus Ergebnissen einer Umfrage des Münchener ifo Instituts aus dem Juli 2024 geht hervor, dass derzeit erst 27% der befragten Unternehmen KI in ihren Arbeitsabläufen und Unternehmensprozessen integriert haben. Diese zögerliche Haltung bedingt sich auch durch rechtliche Bedenken.
Die Cisco Data Privacy Benchmark Study 2024 zeigt, dass deutsche Unternehmen aufgrund von Datenschutzbedenken besonders vorsichtig bei der Nutzung von KI sind. So beschränken 76% der befragten Unternehmen die Dateneingabe, weltweit sind es 63%. Laut einer Auswertung des Statistischen Bundesamts machen sich rund 50% der Unternehmen Sorgen um die Unklarheit über die rechtlichen Folgen und haben Bedenken hinsichtlich des Datenschutzes und der Privatsphäre. Diese Bedenken begegnen auch jedem Berater bei der Einführung von KI innerhalb von Unternehmen oder Verwaltung.
DS-GVO und KI: Passt nur bedingt
Dass die im Kern nun auch schon ein Jahrzehnt alte DS-GVO nicht besonders gut mit generativer KI funktioniert, ist offenkundig. Und das gilt umso mehr für das Training von KI, für das auch noch erhebliche Anforderungen iRd KI-VO auf die wenigen Unternehmen warten, die sich daran in Europa überhaupt noch heranwagen. Aber auch die Probleme bei der Nutzung von KI zum Erzeugen von Texten, Bildern, Videos, Musik oder Code sind erheblich genug.
Folgende Aspekte seien beispielhaft genannt:
# Betroffenenrechte: Korrektur
KI-Chatbots sind keine Suchmaschinen und nicht dafür gemacht, das Geburtsdatum österreichischer Datenschutzaktivisten korrekt wiederzugeben. Nutzt man die KI auf diese Art und Weise, gerade iRv Vanity-Suchen, also Selbstauskünften, so läuft man früher oder später auf harte Probleme mit dem sog. Halluzinieren. Darunter versteht man die Ausgabe von erfundenen und potenziell falschen Daten und Formulierungen über Personen.
KI-Systeme arbeiten oft auf Basis von Wahrscheinlichkeiten und Unsicherheiten. Ein „falsches“ Ergebnis kann daher Teil der erwarteten Variabilität des Systems sein, anstatt ein klar identifizierbarer Fehler. Die Grenze zwischen akzeptabler Unsicherheit und echtem Fehler ist oft fließend. Allerdings finden sich in den Ausgaben der KI auch tatsächlich bedrohliche Darstellungen, die dringend korrigiert werden müssen. So wurde ein deutscher Journalist kürzlich Opfer falscher Anschuldigungen durch Microsoft Copilot (abrufbar unter: https://heise.de/-9840437). Im Chat mit dem Microsoft-Angebot wird dieser als verurteilter Kinderschänder, Ausbrecher aus der Psychiatrie oder Witwenbetrüger bezeichnet. Tatsächlich hatte der Journalist lediglich über derartige Fälle berichtet.
In solchen Fällen sind die Anbieter von generativer KI in der Pflicht, derartig rufschädigende Angaben unverzüglich zu unterbinden. Naiverweise wird hier im juristischen Umfeld häufig geordert, man müsse einfach das Model neu trainieren. Das kostet jedoch potenziell Millionen und dauert Monate - praktisch umsetzbar ist es daher nicht. Die Anbieter nutzen stattdessen Filter, die eine Ausgabe solcher Daten verhindern können. Diese stellen wiederrum selbst ein Datenschutzproblem dar, enthalten sie doch die eigentlich zu löschenden personenbezogenen Daten.
# Betroffenenrechte: Auskunft und Löschung
Generative KI-Systeme haben keine Datenbanken im klassischen Sinne, die Auskunft über gespeicherte personenbezogene Daten erteilen können. Bei komplexen KI-Systemen wird es schwierig bis unmöglich, alle verarbeiteten Daten vollständig und verständlich offenzulegen.
Die Umsetzung des Rechts auf Löschung kann bei KI-Systemen besonders komplex sein. Es müsste sichergestellt werden, dass alle personenbezogenen Daten vollständig aus den Trainingsdaten und Modellen entfernt werden können, ohne die Funktionalität des Systems zu beeinträchtigen. Das ist bereits technisch nur mit einem unfassbaren Aufwand zu gewährleisten.
# Datenminimierung und Zweckbindung
KI-Systeme benötigen oft große Datenmengen, um effektiv zu funktionieren. Dies kann im Widerspruch zum Prinzip der Datenminimierung und Zweckbindung der DS-GVO stehen, das vorschreibt, dass nur notwendige Daten für einen spezifischen Zweck erhoben und verarbeitet werden dürfen.
# Transparenz und Erklärbarkeit
KI-Systeme arbeiten oft als „Black Box“, was die Nachvollziehbarkeit von Entscheidungen erschwert. Dies steht im Konflikt mit dem Recht auf Auskunft und Erklärung, das die DS-GVO vorsieht. Diese mangelnde Transparenz vor allem der amerikanischen Anbieter dürfte sich auch bei der Erstellung von vielfach notwendigen Datenschutz-Folgenabschätzungen nach Art. 35 DS-GVO als kaum zu lösendes Problem darstellen (dazu instruktiv: Sachs/Meder ZD 2024, 363).
# Internationale Datenübermittlung
Der Einsatz von KI-Systemen, insbesondere iRv Cloud-basierten Lösungen, wird im Regelfall zu grenzüberschreitenden Datenübermittlungen führen. Vor dem Hintergrund der DS-GVO ist das besonders kritisch zu betrachten. Dies gilt umso mehr, als dass sich die populären amerikanischen Anbieter wie Open AI (ChatGPT), Anthropic (Claude 3.5) oder die Bild-KI Midjourney nicht im Verzeichnis des Data Privacy Frameworks (abrufbar unter: https://www.dataprivacyframework.gov/list) befinden.
# Automatisierte Entscheidungsfindung
Die DS-GVO sieht strenge Regelungen für automatisierte Entscheidungen vor, die rechtliche Wirkung entfalten oder Betroffene erheblich beeinträchtigen. Der Einsatz von KI-Systemen, insbesondere im Personalbereich (HR), kann gegen diese Bestimmungen verstoßen, wenn Algorithmen eigenständig über Bewerber oder Mitarbeiter entscheiden, vor allem dann, wenn keine Menschen in die Entscheidungsfindung eingebunden sind.
# Datensicherheit und Schutz vor Missbrauch
Nutzer von KI müssen sicherstellen, dass angemessene technische und organisatorische Maßnahmen getroffen werden, um die Datensicherheit gemäß DS-GVO zu gewährleisten. Prozesse, die Transparenz und Kontrolle ermöglichen, scheitern dabei allerdings regelmäßig an dem Black-Box-Charakter der amerikanischen KI-Modelle.
DSK und KI: Ein wenig hilfreicher Kompromiss
Für diese - und noch eine ganze Reihe von anderen - Probleme(n) brauchen wir dringend rechtliche wie technische Lösungsansätze. Umso gespannter wartete die Datenschutz-Community auf das angekündigte DSK-Orientierungspapier „Künstliche Intelligenz und Datenschutz“, das am 6.5.2024 publiziert wurde (eine gute, erläuternde Zusammenfassung bietet Hansen KIR 2024, 28). Leider entpuppte sich das Papier für die Praxis als nur sehr eingeschränkt hilfreich. Vielmehr erweckte es inhaltlich den Eindruck eines eher halbgaren Kompromisses.
Das ist umso enttäuschender, als sich unter den Datenschutzbeauftragten und ihren Mitarbeitern eine ganze Reihe von ausgewiesenen KI-Experten befinden, die sich aber scheinbar nicht durchsetzen konnten. So werden in der Orientierungshilfe die Vorgaben der DS-GVO auf KI subsumiert, meist ohne sich über die Umsetzbarkeit und die technischen Hürden auszulassen.
Das fängt exemplarisch bereits mit dem ersten Satz des Papiers an, wonach man vor dem Einsatz einer KI-Anwendung „explizit festlegen“ solle, welche „Einsatzfelder für die KI-Anwendung vorgesehen sind und welchem Zweck diese konkret dient“. Niemand, der Chatbots im beruflichen Kontext einsetzt, kann seriös vorhersagen, zu welchen Zwecken er diese zukünftig verwenden wird. Auch der Rest der Orientierungshilfe lässt an vielen Stellen Orientierung vermissen. Hilfreicher sind hier einzelne Handreichungen, etwa aus Baden-Württemberg oder auch Ansätze wie das Einberufen eines KI-Ausschusses wie in Niedersachsen umgesetzt.
Hamburger Thesen zum Personenbezug
Wirklich hilfreich in der Praxis sind die zwei Papiere aus Hamburg, in denen man sich tatsächlich bemüht, KI im Alltag nutzbar zu machen. Das gilt zunächst einmal aus juristischer Sicht für die „Hamburger Thesen zum Personenbezug in Large Language Models“ v. 15.7.2024, die eine hochinteressante Debatte befeuert haben.
In dem Papier wird die nachvollziehbare und gut begründete Ansicht vertreten, dass die bloße Speicherung iRe Large Language Models (LLM) keine Verarbeitung iSd Art. 4 Ziff. 2 DS-GVO darstellt. Dies begründet sich damit, dass in den Modellen keine personenbezogenen Daten gespeichert werden. Vielmehr sind dort Texte, anders als in klassischen Datenbanken, nicht als solche enthalten, sondern nur noch Fragmente in Form von numerischen Token - die laut der Thesen keinen Personenbezug aufweisen.
Hieraus ergibt sich, dass Betroffenenrechte der DS-GVO nicht das Modell selbst zum Gegenstand haben können. Allerdings können sich Ansprüche auf Auskunft, Löschung oder Berichtigung zumindest auf Input und Output eines KI-Systems beziehen. Auch wirke sich ein datenschutzwidriges Training des Modells nicht auf die Rechtmäßigkeit des Einsatzes in einem KI-System aus. Die Hamburger Thesen bilden mit ihrer technisch nachvollziehbaren Begründung einen guten Ansatz, zumindest die praktische Nutzung von LLMs erheblich zu erleichtern.
Und noch mehr Lebenshilfe aus Hamburg
Als für die Beratung ausgesprochen hilfreich qualifiziert sich aber ein etwas älteres Papier, das ebenfalls der BfDI aus Hamburg zu verantworten hat: Die Checkliste zum Einsatz LLM-basierter Chatbots v. 13.11.2023. Diese enthält eine Liste von 15 Punkten, deren praktische Umsetzung die Wahrung des Datenschutzes im betrieblichen Umfeld oder in der Verwaltung erheblich unterstützt. Hierzu tragen gerade einfache Punkte bei, wie die Vermeidung der Ein- und Ausgabe personenbezogener Daten iRv Prompts oder das Deaktivieren der History.
Insgesamt bleibt festzuhalten, dass wir an vielen Punkten noch sehr am Anfang einer datenschutzrechtlichen Diskussion stehen. Es bleibt zu hoffen, dass die Aufsichtsbehörden der produktiven Hamburger Linie folgen. Ein wichtiger Hinweis zum effektiven Datenschutz fehlt allerdings auch in dem Hamburger Papier: Der erste Handgriff bei der Nutzung von ChatGPT & Co. sollte das Deaktivieren der Weitergabe der eigenen Daten zur Modellverbesserung sein (bei OpenAI unter Einstellungen/Datenkontrolle).
Hannover, im November 2024