The Bitter Lesson: From Big Data to Big Trouble

Peter Hense ist Rechtsanwalt bei Spirit Legal in Leipzig.

MMR 2025, 927 November 2025 begann stürmisch. „Entscheidendes Urteil im derzeit wichtigsten Urheberrechtsstreit“ titelte die Frankfurter Allgemeine Zeitung, „KI-Modell keine rechtsverletzende Kopie“ schrieb Heise. Justice Joanna Smith hatte soeben am Londoner High Court in der Rs. Getty Images vs. Stability AI englisches und walisisches Recht gesprochen. Die Frage, ob Machine-Learning-Modelle rechtswidrige Kopien ihrer Trainingsdaten darstellen, beantwortete sie rhetorisch geschickt mit einer Ellipse in Rn. 600: „In my judgment, it is not.“ Die 42. Zivilkammer des LG München I, konfrontiert mit der gleichen Frage, sah dies wenige Tage später anders. Die Vorsitzende Richterin Elke Schwager verkündete in der Rs. GEMA vs. OpenAI rhetorisch nicht weniger gekonnt, dass die sicherlich sehr intelligente Beklagte OpenAI doch hätte erkennen können, dass sie die wesentlichen Bauteile ihres Imperiums hätte erwerben müssen und nicht hätte entwenden dürfen. Es könnte ausschließlich eine Geschichte starker Richterinnen sein, die diesem Rechtsgebiet mit Urteilen ihren Stempel aufdrücken. Doch wäre diese Erzählung unvollständig, würde man ausblenden, warum es zu diesen Verfahren gekommen ist und warum es für die Kreativwirtschaft wie für die KI-Marketingbranche um existenzielle Fragen geht. Diese Geschichte beginnt mit einer bitteren Lektion und dem Mann, der sie erzählte: Richard S. Sutton, Machine Learning-Pionier. Es war gerade wieder KI-Winter: IBMs Watson-Versprechen für Onkologie und Versicherungswirtschaft zerschellten an der Realität. Viel Geld wurde verbrannt. Sutton war frustriert über ausbleibende Erfolge von KI-Forschung und Praxis. Er schrieb daher 2019 eines der wohl einflussreichsten technischen Essays, das bereits im ersten Satz das Paradigma der kommenden Jahre werden sollte: Nicht Spezialwissen, sondern einfache Methoden kombiniert mit sehr viel Rechenpower, das sei das Rezept für Fortschritt. Er nennt Schach, Go und Computer Vision als Belege für seine These. Statt inkrementeller Verbesserung müsse man auf mehr Daten sowie Trial-and-Error setzen, um endlich Durchbrüche zu erzielen. „Masse schlägt Klasse“. Diese Lektion hatte zu Beginn der 2020er-Jahre das gesamte Silicon Valley verinnerlicht: Immer mehr Daten, egal woher, kombiniert mit Rechenleistung, seien der Weg zum heiligen Gral, der Artificial General Intelligence (AGI), die Menschen auf breiter Front übertreffen würde. Doch der Moment kam nicht. Die Daten der Welt sind heute erschöpft, Wasser und Energie reichen kaum zum Unterhalt der Rechenzentren aus, und ein messbarer Ertrag aktueller KI-Modelle lässt weiter auf sich warten. Die Sucht nach Daten und Ruhm verführte in diesem Markt dazu, alle rechtlichen Regeln zu ignorieren. Jeder Player bediente sich an illegalen Shadow Libraries wie „Annas Archive“ und „LibGen“; sie luden Millionen Buchtitel und _£Aufsätze herunter und komprimierten das gesamte technisch zugängliche Internet nebst Darknet ohne Rücksicht auf Rechte und Verluste, stets auf der Jagd nach dem von Sutton versprochenen Durchbruch.

Das Urteil aus München schallt in dieser Blase wie ein vorzeitiger Schlusspfiff. Sehr viel Geld steht auf dem Spiel, die Wette auf KI ist längst politisch geworden. Viel ist über die Münchner Entscheidung und ihre Leitsätze geschrieben worden, auch Despektierliches: Quot capita, tot sensus. Dabei ist das Urteil eine nüchterne Trinität des Prozessrechts. Auskunft, Unterlassung und Schadensersatz; GEMA gewonnen, OpenAI verloren. Komprimiert gesprochen versetzt das Gericht der Beklagten den technischen KO in Rn. 166: „Memorisierung stellt eine urheberrechtlich relevante Vervielfältigung dar. Die streitgegenständlichen Texte sind nach Überzeugung der erkennenden Kammer gem. § 286 Abs. 1 S. 1 ZPO im Modell enthalten.“ Kurz und gut. Die vom Gericht gelieferte Begründung lässt aufhorchen, weil es in Rn. 169 „Kenntnisse der informationstechnischen Forschung“ als Ausgangspunkt der Rechtsfindung benennt. Selten liest man einen solchen technischen Sachverstand in deutschen Urteilen oder Juristenzeitschriften. Dabei sprechen die Fakten der Forschung zum streitentscheidenden Thema eine deutliche Sprache. Ein Anriss: Brauchte es bei früheren Machine-Learning(ML)-Modellen noch spezielle Angriffe wie eine Membership Inference Attack (MIA), um Informationen über die Trainingsdaten zu gewinnen, ist die Ausgabe von Trainingsdaten bei LLMs die Kernfunktionalität, für die es allein einer schlichten Texteingabe bedarf. Technische Standards von ISO, IEC und IEEE sowie Risk Repositories wie OWASP haben Memorisierung und Ausgabe von Trainingsinformationen vor Jahren als eines der Top-Risiken für Cybersicherheit und Privacy anerkannt. Die Richterinnen stützen sich für ihre Bewertung der Fakten des Falls wesentlich auf die Analysen von Pesch (Juristin) und Böhme (Informatiker), die schon früh luzide interdisziplinäre Aufsätze (zB GRUR 2023, 997; MMR 2023, 917) verfasst hatten und dafür mit Anerkennung belohnt werden. Es gibt freilich noch mehr Belege dafür, dass das Gericht mit seiner Einschätzung richtig liegt, auch in der erfolgreichen Kombination von Informatik und Recht wie bei Nolte/Finck/Meding (Machine Learners Should Acknowledge the Legal Implications of Large Language Models as Personal Data, 2025), die die aktuellste deutsche Untersuchung zur Trainingsphase von LLMs und der Verkörperung personenbezogener Informationen in ML-Modellen vorgelegt haben. Bemerkenswert auch Ruschemeier, die wie Pesch zu den aufstrebenden Namen technisch versierter deutscher Lehrstuhlinhaberinnen zählt und deren Beitrag „LLMs und Datenschutzrecht“ (2025) eine punktgenaue Darstellung der rechtsgebietsübergreifenden Herausforderungen bietet. Während Juristen noch ringen, ist die technische Debatte um die „Memorisierung“ von Informationen in Deep Neural Networks (DNN) längst entschieden: Sind es bestimmte Gewichte, die dafür sorgen, dass Text wortgetreu reproduziert wird, oder ist Memorisierung eine generelle Eigenschaft der mathematischen Modelle, die auch Text- und Kontextvarianten umfasst? Wer informiert ist, weiß, dass DNNs eine stabile Speicherung von Informationen bieten, der selbst punktuelle Interventionen auf Ebene einzelner Neuronen nichts anhaben können (Xu et al., Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs, 2026). Dass mit steigender Anzahl von Parametern in LLMs auch die Fähigkeit anwächst, Trainingsdaten wortgetreu zu memorisieren (Carlini, Quantifying memorization across neural language models, 2025), ist gesicherter Stand der Wissenschaft. Die nahezu vollständige Memorisierung wird greifbar, wenn die Modellkapazität die Entropie der Trainingsdaten übersteigt. In dieser Situation verwandelt sich das Modell von einem abstrahierenden in ein speicherndes System. Anstatt generalisierbare Muster zu extrahieren, speichert es seine Trainingsdaten einfach. Nichts davon ist neu: Roberts/Raffel/Shazeer testeten bereits 2020 „How much knowledge can you pack into the parameters of a language model?“, Morris et al. beantworten in „How much do language models memorize?“ von 2025 die Frage für die GPT-Familie mit 3,6 bits/Parameter, weshalb ein 70 Milliarden-Parameter-Modell rd. 31 GB an hochkomprimierten Trainingsdaten speichern kann. Das ist viel. Memorisierung ist fundamental für das Funktionieren von LLMs (Huang/Yang/Potts, Demystifying Verbatim Memorization in Large Language Models, 2024). Sie ist die Grundlage dafür, dass LLMs bemerkenswert komplexe Logikrätsel oder juristische Sachverhalte lösen können, aber nur, sofern die Lösung bereits in ihren Trainingsdaten enthalten war und memorisiert wurde (Xie et al., On Memorization of Large Language Models in Logical Reasoning, 2025). Memorisierung in LLMs ist nicht nur Overfitting (hierzu Hense MMR 2024, 449 ff.). Feldmann schrieb bereits 2019 in „Does Learning Require Memorization? A Short Tale about a Long Tail“, dass LLMs seltene Wörter, Namen und Formulierungen memorisieren müssen, weil sie zu selten in den Trainingsdaten auftauchen, um als Muster erkannt zu werden. Um diesen Satz zu verstehen, muss man das Zipf'sche Gesetz aus der quantitativen Linguistik zur Verteilung von Worthäufigkeiten kennen: Sprache ist sehr variabel, sie lebt statistisch von singulären Formulierungen. LLMs lernen nicht nur Token-IDs, sondern Sequenzen, und die meisten Textsequenzen unserer Sprache sind selten, wenn nicht einzigartig. Das Ziel aktueller LLMs ist Memorisierung, da sie dem kommunizierten Zweck („Get Answers“!) entsprechend als Wissensspeicher genutzt werden sollen. Ansonsten könnte ein technischer Tipp aus einem Reddit-Post von 2017 nicht reproduziert werden, da er eben nur einmal im Trainingsdatensatz vorkommt. Dass es sich bei memorisierten Informationen in LLMs nur um Beifang handele, wird zwar gelegentlich behauptet, ist wissenschaftlich aber nicht haltbar. Memorisierung ist kein Bug, die Speicherung von Millionen einzigartiger Textsequenzen ist der einzige Weg, wie LLMs die sprachliche Komplexität unserer Welt handhaben können, denn der größte Teil der Trainingsdaten dieser Welt ist nicht repetitiv.

Gerichten ist der Berg an Forschung zu diesem Thema (rd. 140 Werke aus den letzten fünf Jahren) zumeist unbekannt. Es bleibt die Aufgabe interdisziplinärer Wissenschaft, diesen Informationsschatz auch für die Judikative nutzbar zu machen. Das LG München I fühlte sich immerhin so bestärkt, dass es auf einen alten Trick der Rechtsfindung zurückgriff: „I know it when I see it“. In Rn. 186 wird knapp festgestellt, dass allein entscheidend ist, dass die Liedtexte, die als Trainingsdaten dienten, im Modell reproduzierbar enthalten und somit verkörpert sind. Damit löst das Gericht die Streitfrage mit Autorität und praktischer Vernunft, während die Naturwissenschaften sich längst spannenderen Themen zugewandt haben.

Richard S. Sutton, Gewinner des Turing Awards 2024, zeigt heute, was einen echten Wissenschaftler ausmacht: die Fähigkeit, Irrwege zu erkennen und neue Wege einzuschlagen. LLMs seien eine Sackgasse, denn ganz gleich, wie viele Daten man in sie pumpe, sie blieben unfähig zu echtem Verstehen. Damit liegt Sutton auf einer Linie mit einem weiteren Turing-Award-Gewinner (2018), Yann LeCun, dem Noch-Chef von Meta AI, der bereits zu Beginn des LLM-Hypes im März 2023 gelassen aussprach, dass LLMs „doomed“ seien: toxisch, nicht faktisch, nicht kontrollierbar. Eine neue Architektur müsse her, da sind sich Sutton und LeCun einig. Eine, die echte Lösungen bietet, über ein Weltmodell verfügt, und nicht nur Spekulationsblase ist. Ganz gelassen gehen hier zwei Protagonisten des verblassenden KI-Booms von Bord und wenden sich inkrementellen systemischen Verbesserungen zu, die nicht auf Datenmenge und Rechenkapazität, sondern auf menschlichem Erfindungsgeist beruhen. Für OpenAI und andere Rechtsverletzer brechen stürmische Zeiten an: Tarde venientibus ossa.

Leipzig, im Dezember 2025

Anzeigen

IT-Recht Plus Premium

The Bitter Lesson: From Big Data to Big Trouble

Anzeigen

BECK Stellenmarkt

Teilen:

Internet Explorer: Unsere Empfehlung

The Bitter Lesson: From Big Data to Big Trouble

Anzeigen

BECK Stellenmarkt

Teilen: