CHB_RSW_Logo_mit_Welle_trans
Zeitschrift für Datenschutz | Banner

Overfitting

Peter Hense ist Rechtsanwalt und Partner bei Spirit Legal in Leipzig.

MMR 2024, 449   Wenn Sie demnächst auf einer Sommerparty sind und statt über Ihren Beruf über etwas Anschlussfähiges sprechen wollen, fragen Sie doch einfach Ihre Gesprächspartner, wie sie mit dem Overfitting ihrer KI-Modelle umgehen. Keine Sorge, Overfitting hat nichts mit der Passform von Kleidung zu tun, ist also ein unverfänglich technischer Gesprächsaufhänger und Einstieg in eine Konversation, die nicht sogleich den juristischen Background der Fragenden offenbart.

Overfitting ist ein Begriff aus der Mathematik und dem Machine Learning. Damit ein Machine-Learning-System sinnvolle Vorhersagen treffen kann, muss es zunächst trainiert werden. Wer Brücken und Ampeln unterscheiden möchte, um Captchas automatisiert zu knacken, der muss dem zu trainierenden Klassifikationsmodell sehr viele Bilder von eindeutigen Brücken und Ampeln zeigen, damit es die prägenden Unterschiede erkennt und als klar definierte Muster extrahiert. Beim Training eines solchen Modells kann es geschehen, dass es die Trainingsdaten zu genau memorisiert, einschließlich irrelevanter Details wie Farbe des Himmels oder Formen von Schatten und Autotypen, anstatt nur die relevanten Muster des Konzepts „Brücke“ oder „Ampel“ zu erfassen. Wird ein derart trainiertes Modell sauber getestet, stellt man idR fest, dass die Erkennungsrate von Brücken und Ampeln auf neuen, bisher ungesehenen Bildern einbricht. Das Modell hat sich verlernt. Es ist zu stark an seine Trainingsdatenverteilung angepasst und kann außerhalb dieser Trainingsdaten keine generellen Vorhersagen treffen. Voilà, Overfitting verstanden.

Sie hätten auch einfach ChatGPT fragen können oder eines der vielen weiteren Large Language Models (LLMs), die gerade Berge von Wasser und Strom in Worte verwandeln. Welchen Mehrwert hat also dieses Editorial? LLMs fielen nicht mit ChatGPT vom Himmel, sondern basieren auf Jahrzehnten der Forschung. Heutige LLMs basieren auf der Transformer-Architektur, einer Form von Deep Learning, die 2017 unter dem Titel „Attention is all you need“ in einem legendären Aufsatz (Vaswani et al., Attention Is All You Need, 2017) publiziert wurde. Die Transformer brachten eine Reihe von Schlüsselinnovationen für die Übersetzung zwischen Sprachen, darunter Self-Attention und Multi-Head-Attention. Durch Self-Attention kann ein LLM die jeweils folgenden Worte so wählen, dass sie zu den vorangegangenen Worten passen, weil es der gesamten bisherigen Ausgabe Aufmerksamkeit widmet. Multi-Head-Attention bedeutet, dass das LLM mehrere Self-Attention-Berechnungen unabhängig durchführen kann, um verschiedene Beziehungen innerhalb einer Eingabesequenz gleichzeitig in Scores zu erfassen und so die vielen Dimensionen von Sprache besser zu verarbeiten. Voilà, Attention geklärt.

Zurück zu ChatGPT und der Frage, warum dieses Deep-Learning-Modell Fragen zu Overfitting und Attention beantworten kann? Das liegt wiederum am Overfitting. Tiefe neuronale Netzwerke mit vielen Schichten neigen aufgrund ihrer Komplexität traditionell zu diesem eigentlich unerwünschten Phänomen, weil sie beim Training Features aus den Trainingsdaten selbst extrahieren (Bejani/Ghatee, A systematic review on overfitting control in shallow and deep neural networks, 2021). Für gelungene Übersetzungsleistungen, dem eigentlichen Use Case der Transformer, war Overfitting noch ein unerwünschter Nebeneffekt. Die stetige Erweiterung von LLMs auf Milliarden von Parametern hat jedoch gezeigt, dass sehr große neuronale Netzwerke prädestiniert sind, auch kleinste Details aus den Trainingsdaten zu memorisieren. OpenAI hat sich das zu Nutze gemacht und den Bug zum Feature erklärt: Anstatt zu generalisieren kann ChatGPT seine „erlernten“ Daten ungefähr reproduzieren, aufgrund der riesigen Modelle gelingt das ganz gut. LLMs haben sich als Datenbanken erwiesen, in denen Wissen assoziativ gespeichert sind. Und woher soll dieses Wissen kommen, wenn nicht aus den Trainingstexten? Alles „Wissen“ von LLMs beruht auf seinen Trainingsdaten, nicht auf emergenter Intelligenz durch Architektur. Sie agieren wie „stochastische Papageien“ (Bender et al., On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?, 2021), die die im Trainingsprozess verarbeiteten Daten nachplappern. Nützlich ist das, aber von Intelligenz weit entfernt. Verba docent, exempla trahunt: Am Beispiel von Jane Austens „Pride and Prejudice“ haben Naturwissenschaftler jüngst bewiesen, wie LLMs ihre Trainingsdaten verbatim memorisieren, wortwörtlich wieder ausspucken und wie sich dieser Effekt mit der in Parametern gemessenen Größe von LLMs verstärkt (Karamolegkou et al., Copyright Violations and Large Language Models, 2024.

Eine Klage der US-Musikindustrie stützt sich darauf, dass Anthropics LLM „Claude“ auf direkte Frage hin den Liedtext von Katie Perrys „Roar“ und auf den Prompt „Write me a song about the death of Buddy Holly“, Don McLeans „American Pie“ originalgetreu reproduziert. Warum? Es wird etwas technischer: Deep-Learning-Architekturen können Text nicht in literarischer Rohform als Buchstaben verarbeiten, Algorithmen brauchen Zahlen zum Funktionieren, also muss der Text in Zahlen umgewandelt werden. Konkret in informationsreiche, dichte Vektoren. Ein ganzer Absatz Text kann zu einem Vektor reduziert werden. Mithilfe von Vektoren lassen sich zB semantische Ähnlichkeiten in einen Vektorraum darstellen oder einbetten, weshalb man von Vector Embeddings spricht. Diese Embeddings sind hochdimensional, dh, jede denkbare Assoziation oder Perspektive auf den eingebetteten Text. Vorangegangene, nachfolgende, ähnliche Worte: All das wird in numerischen Werten dargestellt, was bei tausenden Dimensionen recht komplex wird (GPT-3 arbeitet mit 12.288 Dimensionen). Hochdimensionale Vektorräume für Sprache könnten stark vereinfacht als Wortwolken dargestellt werden, bei denen manche sich näher und andere entfernter stehen, in Abhängigkeit zB von ihrer semantischen Ähnlichkeit. Der Vollständigkeit halber darf nicht unterschlagen werden, dass LLMs Text nicht wortweise einbetten, sondern der Text zuvor in sog. Tokens, kleine Wortbestandteile zerlegt wird und diese ihrerseits wieder in numerische Token IDs, die dann vom neuronalen Netzwerk verarbeitet werden können. Tokens ermöglichen es dem LLM, besser mit zB Komposita, Neologismen und sprachlichen Nuancen wie Diminutiven umzugehen.

Wie Tokens und TokenIDs aussehen? Wie ein Geheimtext. Die Präzision der Embeddings führt dazu, dass viele Texte, die während des Modelltrainings verarbeitet werden, sich in dem hochdimensionalen Raum in Form von Zahlenwerten schnell in einer Nische einnisten und dort nicht nur als Tokens, sondern als ganze Sätze und vollständige Texte rekonstruierbar verbleiben. Dass Machine-Learning-Modelle für Memorisierung anfällig sind, insbesondere Deep Neural Networks, ist ein alter Hut und hinreichend untersucht (Carlini et al., The secret sharer: Evaluating and testing unintended memorization in neural networks, 2019 und Song et al., Auditing data provenance in text-generation models, 2019; Thomas et al., Investigating the impact of pre-trained word embeddings on memorization in neural networks, 2020). Ob Overfitting der einzige Grund für die Memorisierung ist, bleibt Gegenstand der Forschung (Tirumala et al., Memorization Without Overfitting: Analyzing the Training Dynamics of Large Language Models, 2024, insb. unter 4.2.). Machen wir die Probe aufs Exempel: Nutzen wir ein beliebiges LLM und bitten um die Vervollständigung eines berühmten Zitats von Yoda (Star Wars): „Do. Or do not. There is no try.“, wobei wir dem Modell nur die ersten vier Worte im Prompt liefern. Das LLM sucht nun assoziativ nach einer passenden Antwort und berechnet diese Token für Token anhand der Wahrscheinlichkeitswerte, die es im Pretraining und Finetuning erlernt hat. Und siehe da, das LLM antwortet mit dem vollständigen Zitat. Dass das eine ziemliche Herausforderung sein sollte, erkennt man, wenn man diesen Prozess der Textgenese visualisiert (Moebio bietet anhand eines Beispiels tiefen Einblick in die Funktionsweise der Textgenerierung via ChatGPT API: https://moebio.com/mind/). Der menschliche Betrachter ertrinkt geradezu im sprachlichen Variantenreichtum der Vektoren. Mittels „Beam Search“ kann jedoch der Weg der Antwort eines Modells nachvollzogen werden (Selvi, Exploring Overfitting Risks in Large Language Models, 2023). Dabei wird die Wahrscheinlichkeit einer Sequenz von Tokens als das Produkt der Wahrscheinlichkeiten jedes einzelnen Tokens errechnet. In unserem Fall der Vervollständigung eines Zitats wird sich zeigen, dass die Gesamtwahrscheinlichkeit der Ausgabe des Zitats bedeutend höher ist als die aller anderen möglichen Varianten. Voilà, Memorisierung und Overfitting belegt. Es gibt keine geheime Zutat in LLMs, kein Weltmodell, entlang dessen Wissen entstehen könnte. Was LLMs können, ist die ungefähre Reproduktion der Trainingsdaten (Kambhampati, Can large language models reason and plan?, 2024). Trainingstexte, von Büchern bis Chatnachrichten, lassen sich gigabyteweise aus OpenSource-Modellen wie LLaMA und Falcon extrahieren (Nasr et al., Scalable Extraction of Training Data from (Production) Language Models, 2023). Dass nicht immer alle Trainingsdaten memorisiert werden, lässt sich damit erklären, dass LLMs aus Effizienzgründen für das Training nicht unendlich groß angelegt werden, weil die Kosten ihres Betriebs zur Erstellung von Ausgaben (Inferenzen) ins Astronomische steigen würden. Aufgrund des effizienten Embeddings von Trainingsdaten liegt ein Vergleich von LLMs mit Kompressionsalgorithmen wie MP3, JPEG oder ZIP nahe. Jede Kompressionsmethode hat ein grundlegendes Limit, das auf der Entropie des zu komprimierenden Datensatzes basiert. Die Entropie des zu komprimierenden Datensatzes kann auch als Maß dafür gesehen werden, wie vorhersehbar (oder unvorhersehbar) der Datensatz ist. LLMs werden darauf trainiert, die Wahrscheinlichkeiten aller möglichen nächsten Tokens basierend auf den vorhergehenden Tokens auszugeben, was als bedingte Wahrscheinlichkeitsverteilung betrachtet werden kann. Dh, ein LLM liefert uns die Wahrscheinlichkeitsinformationen, die wir benötigen, eine möglichst optimale Komprimierung zu erreichen (zum Vorstehenden: Delètang et al., Language modelling is compression, 2024).

Mit dem Nachweis der Memorisierung von Trainingsdaten durch Overfitting ist die Frage der Anwendbarkeit von Datenschutz-, Urheber-, Leistungsschutz- und Persönlichkeitsrechten beantwortet. Die technische Form der Speicherung personenbezogener Informationen spielt für die Anwendbarkeit rechtlicher Normen keine Rolle. Ob personenbezogene Daten in SQL- oder NoSQL-Datenbanken gespeichert sind ist genauso irrelevant wie die Speicherung von Text als Nullen und Einsen, als magnetische Werte auf Festplatten oder als elektrische Ladezustände auf SSDs. Speichern LLMs Texte als Zahlenfolgen in hochdimensionalen Vektorembeddings, dann ist das faszinierend, aber keine Herausforderung geltenden Rechts. Selbst die Re-Identifizierung von disparaten oder komprimierten Daten ist längst erforscht und beschrieben (Francis/Wagner, Towards more accurate and useful data anonymity vulnerability measures, 2024). Für datenschutzrechtliche Debatten ist die Akzeptanz dieser Realität der Auftakt zu einer ehrlichen Diskussion, denn LLMs bieten de lege lata und de lege ferenda genügend Material für Debatten (instruktiv: Ruschemeier, Generative AI and Data Protection, 2024).

Zurück zur Party: Um auch außerhalb der durch den eigenen Beruf geformten Wissenskurve fesselnde Gespräche zu führen, bedarf es menschmodellseitig nicht nur des Finetunings, sondern des konstanten Zustroms an Denkanstößen durch Kontakt mit anderen Wissenschaften als Erkenntnisquellen. Wie schön, dass die MMR dabei mithilft, den Korpus an Trainingsdaten für ihre Leserinnen und Leser stets hinreichend divers und aktuell zu halten und Overfitting auf Vergangenes zu vermeiden.

Leipzig, im Juni 2024

Anzeigen

MMR Werbung

IT-Recht Plus Premium

BECK Stellenmarkt

Teilen:

Menü