Zwischenreport des Europäischen Datenschutzausschusses (EDSA): ChatGPT-Taskforce

Christian Thurow

Am 23.5.2024 hat der EDSA ChatGPT-Taskforce seinen Zwischenreport zur Einhaltung von EU-Datenschutzregeln bei Large Language Modellen (LLM – „Große Sprachmodelle“, sog. generative Künstliche Intelligenz) veröffentlicht. Der Report deutet an, dass es noch einige regulatorische Hürden zu meistern gibt.

Praxis-Info!

Der EDSA ist ein unabhängiges europäisches Gremium, welches als Dachorganisation der nationalen Datenschutzbehörden agiert. Im Januar 2024 hat der EDSA eine ChatGPT-Taskforce ins Leben gerufen, welche die folgenden Aufgaben hat:

Austausch von Informationen zwischen den nationalen Datenschutzaufsichtsbehörden über das Engagement mit OpenAI und laufende Durchsetzungsmaßnahmen in Bezug auf ChatGPT.

Koordinierung der externen Kommunikation der Aufsichtsbehörden in Bezug auf Durchsetzungsmaßnahmen im Kontext von ChatGPT.

Identifizierung von Problemen, bei denen ein gemeinsamer Ansatz im Rahmen verschiedener Durchsetzungsmaßnahmen der Aufsichtsbehörden im Zusammenhang mit ChatGPT erforderlich ist.
Im Mai 2024 hat die Taskforce ihren ersten Zwischenbericht veröffentlicht, welcher einige Problemfelder darstellt:

Problemfeld 1: Sammlung von Trainingsdaten, Vorverarbeitung der Daten und Training

Für das Training von Large Language Models wie ChatGPT sind große Datenmengen erforderlich. Diese werden in der Regel über web scraping („Internet-Schaben“) gewonnen. Als web scraping bezeichnet man dabei das automatisierte Extrahieren von Informationen oder Daten aus Webseiten. Dabei werden spezielle Programme oder Skripte verwendet, um den Inhalt von Webseiten auszulesen und in einer strukturierten Form zu speichern.

Nach Auffassung von OpenAI – dem Unternehmen, welches ChatGPT betreibt – stellt web scraping keinen Verstoß gegen das europäische Datenschutzrecht dar, weil alle Daten über das Internet öffentlich zugänglich sind. Aus Sicht der Taskforce kann aber von der Tatsache, dass persönliche Daten im Netz einsehbar sind, nicht automatisch darauf geschlossen werden, dass die betroffenen Personen der Veröffentlichung auch zustimmen. Hier ist also jeweils im Einzelfall zu prüfen, ob von einer Zustimmung auszugehen ist. Dies gilt insbesondere bei sensiblen persönlichen Daten. Die Taskforce weist darauf hin, dass bei den großen Datenmengen eine Einzelfallbetrachtung nicht möglich ist. Der Betreiber eines LLM muss dennoch Maßnahmen zur Einhaltung der Datenschutzregeln ergreifen. Dabei liegt die Beweispflicht für die Effizienz dieser Maßnahmen beim Betreiber des LLM.

Problemfeld 2: ChatGPT-Eingabe, -Ausgabe und -Training

ChatGPT nutzt die Interaktion mit Anwendern – also die eingegebenen Daten und die generierten Antworten – zum Training des KI-Modells. Anwender können dieser Nutzung widersprechen (opt-out, „Abmeldung“, siehe Beitrag „ChatGPT: Quick-Tipp zum Thema ‚Datenschutz‘“). Anwender sollten besser über die Nutzung der Daten und die Opt-out-Möglichkeit informiert werden.

Problemfeld 3: Fairness

Grundsätzlich darf das Datenschutzrisiko nicht vom Betreiber eines LLM auf die Anwender transferiert werden. Ein Hinweis in den Allgemeinen Geschäftsbedingungen (AGB), dass die Anwender für die Inhalte ihrer Eingaben verantwortlich sind, reicht nicht aus. Vielmehr muss der KI-Modellbetreiber davon ausgehen, dass Anwender früher oder später persönliche Daten eingeben und entsprechende Schutzmaßnahmen für diese Daten ergreifen. Die Taskforce wird hier sehr deutlich: „OpenAI remains responsible for complying with the GDPR and should not argue that the input of certain personal data was prohibited in first place” („OpenAI bleibt verantwortlich für die Einhaltung von europäischen Datenschutzregeln (DS-GVO) und sollte sich nicht darauf berufen, dass die Eingabe von bestimmten persönlichen Daten von vornherein verboten war“).

Problemfeld 4: Transparenz und Informationspflichten

Grundsätzlich haben Personen ein Recht darauf, informiert zu werden, wie ihre persönlichen Daten genutzt werden. Bei durch web scraping gewonnenen persönlichen Daten wird dies kaum möglich sein. Anders sieht es dagegen bei aus der Interaktion mit Anwendern gewonnenen persönlichen Informationen aus. Hier müssen die Nutzer besser über die Verwendung ihrer Daten informiert werden.

Problemfeld 5: Richtigkeit der Daten

Die europäischen Datenschutzregeln geben das Recht, auf die Richtigkeit von persönlichen Daten zu bestehen. LLMs beruhen ihrer Natur nach aber auf Wahrscheinlichkeiten. Sie können also falsche Aussagen produzieren. Aus Sicht der Taskforce ist davon auszugehen, dass Anwender die Aussagen von ChatGPT für bare Münze nehmen. OpenAI muss daher die Richtigkeit der Aussagen sicherstellen.

Fazit

Wie so häufig hinkt die regulatorische Reaktion den technischen Entwicklungen hinterher. Es bleibt abzuwarten, welche Konsequenzen der endgültige Report für ChatGPT haben wird. Dabei steht Europa vor einem Dilemma. Kommt die Taskforce zu dem Schluss, dass ChatGPT nicht mit den europäischen Datenschutzregeln in Einklang steht und auch nicht in Einklang gebracht werden kann, so müsste eigentlich die Nutzung in Europa untersagt werden. Dies ist zum einem technisch kaum umsetzbar. Zum anderen würde dies zu einem Wettbewerbsnachteil führen, da ChatGPT unumstritten das Potenzial hat, die Produktivität zu steigern. Es bleibt abzuwarten, wie sich die Behörden aus dieser verzwickten Situation befreien.

Christian Thurow, Dipl.-Betriebsw. (BA), Senior Business Audit Manager, London (E-Mail: c.thurow@thurow.co.uk)

BC 6/2024

BC20240619

Zwischenreport des Europäischen Datenschutzausschusses (EDSA): ChatGPT-Taskforce

Praxis-Info!

Anzeigen

wiwicareer-vahlen

Teilen

Internet Explorer: Unsere Empfehlung

Zwischenreport des Europäischen Datenschutzausschusses (EDSA): ChatGPT-Taskforce

Praxis-Info!

Anzeigen

wiwicareer-vahlen

Teilen