KIR 2026, 57 Die Produktion generativer KI-Modelle hat einen nahezu unstillbaren Hunger nach Daten, der lange Zeit unhinterfragt blieb. Dass ChatGPT & Co über das Scraping „frei“ verfügbarer Informationen im Web wachsen konnten, beschäftigt das Urheberrecht intensiv. Immer deutlicher wird jedoch ein zweiter Konflikt an der Grenzlinie abgeschlossener KI-Modelle einerseits und dem über Jahrzehnte gewachsenen offenen Internet andererseits. Die Wikipedia feiert ihren 25-jährigen Geburtstag und sieht sich durch generative KI ihrer wahrscheinlich größten Bewährungsprobe ausgesetzt: Bots und Scraper kommen, während die Zahl der menschlichen Besucher der freien Enzyklopädie sinkt. Das hat unmittelbare nachteilige Konsequenzen für die Wikipedia-Server selbst, schafft aber zugleich tiefere Probleme für den Wissensbestand der Menschheit.
Die Wikipedia mit ihren zahlreichen Sprachversionen ist eine dankbare Quelle für generative KI. Alle Inhalte unterliegen der Creative-Commons-Lizenz CC-BY-SA. Nach dieser Lizenz können Inhalte genutzt und modifiziert werden, solange der daraus entstehende Content wiederum frei lizenziert ist und die Urheber des Inputs genannt werden. Ob das Training jeweiliger Modelle diesen Anforderungen genügt, könnte angezweifelt werden. Nach offiziellen Stellungnahmen der Wikimedia gibt es keinen direkten Widerspruch, solange sich Big-Tech-Unternehmen endlich an den gestiegenen Serverkosten durch Bot-Abfragen beteiligen (Wildermann, Freies Wissen braucht Fairness – Warum KI-Unternehmen für die Wikipedia-Nutzung bezahlen sollten, Wikimedia Blog v. 18.12.2025, abrufbar unter: https://blog.wikimedia.de/2025/12/18/warum-ki-unterneh men-fuer-die-wikipedia-nutzung-bezahlen-sollten/). Diese relativ höflich vorgetragenen Forderungen müssten eindrücklicher gestellt werden, gerade weil es sich bei der Wikipedia um eine weltweite Community aus Freiwilligen handelt, mit deren Arbeit hohe Spekulationsgewinne erzielt werden. Dass hier tatsächlich ein fairer Beitrag zustande kommt, halte ich für unwahrscheinlich, da die großen Konzerne der generativen KI durch zahlreiche problematische Datenbeschaffungspraktiken groß geworden sind (Crawford, Atlas of AI, 2021, S. 107). Zudem muss sich die Open-Content-Bewegung selbstkritisch die Frage stellen, ob ein monetärer Beitrag zu gestiegenen Infrastrukturkosten nicht gerade Strukturen der Datenextraktion rechtfertigt, die aus ganz anderen Gründen problematisch sind.
Zwischen der Offenheit des Wissens der Wikipedia und den Modellen generativer KI gibt es einen scharfen Kontrast. Nach dem derzeitigen Stand der Debatte zur „Open Source AI“ handelt es sich eher um einen Datenstaubsauger mit ungewissem Ausgang. Eigentlich beinhalten die verschiedenen Definitionen von „Open Source“ oder „freier Software“ die Möglichkeit, den Code eines technischen Systems einzusehen, zu verändern und zu modifizieren. Es muss zudem faktisch möglich sein, das technische System zu reproduzieren. Bisher können die als „Open Source“ dargestellten Modelle nur hinsichtlich weniger Parameter modifiziert und angepasst werden (Wikimedia Deutschland, Künstliche Intelligenz und Freies Wissen, 2025, abrufbar unter: https://www. wikimedia.de/wp-content/uploads/2025/09/KI-und-Freies-W issen.pdf). Der Verdacht eines „Openwashings“ liegt nahe. Konkret stellt sich diese Frage etwa bei Art. 53 Abs. 2 KI-VO, der Ausnahmen für solche Anbieter vorsieht, deren KI-Modelle „im Rahmen einer freien und quelloffenen Lizenz bereitgestellt werden“.
Neben der Belastung der Wikipedia-Server und der Intransparenz von „Open Source AI“ gibt es ein weiteres Problem dieser Art der Organisation von Wissen. ChatGPT und ähnliche Systeme werden als allwissende menschliche Gesprächspartner präsentiert – teilweise mit Quellenangaben, teilweise ohne. Zweifel finden kaum statt. Roberto Simanowski beschreibt in seinem Buch „Sprachmaschinen“, wie Sprache in Systemen generativer KI als statistisches Objekt aus dem Kontext gerissen wird (Simanowski, Sprachmaschinen, 2025, S. 94). Zwar kann, zB bei Perplexity.ai, dem Link zur Wikipedia in der Fußnote gefolgt werden, aber die meisten Nutzenden scheinen das eher nicht zu machen (Wildermann, Wie KI den Zugang zu Wissen verändert – und warum Wikipedia wichtiger ist denn je, Wikimedia Blog v. 23.10.2025, abrufbar unter: https://blog.wikimedia.de/2025/10/23/wie-ki-den-zugang-zu-wissen-veraendert/). Damit verdeckt die Technologie generativer KI, dass Wissen ein stark umkämpfter Gegenstand ist. Immer wieder gibt es dort Konflikte zur Darstellung bestimmter Inhalte bis zur kompletten Sperrung der Wikipedia in einigen Ländern. Elon Musks bizarrer Kulturkampf durch die „Grokipedia“ ist ein beredtes Zeugnis davon. Passenderweise wurde seine Seite durch generative KI erstellt und kann nicht verändert werden. Wiederum im scharfen Kontrast dazu hat jeder Wikipedia-Artikel eine Diskussionsseite, auf der über die Jahre umfangreiche Debatten geführt werden. Ziel ist die – freilich nie abgeschlossene – Suche nach dem, was aus der Sicht der Community als „gesichertes Wissen“ gelten darf. Natürlich gibt es auch bei der Wikipedia Hierarchien, Probleme und Biases, aber zu gleich gibt es Verfahren und strukturierte Initiativen des Vereins Wikimedia und anderer zivilgesellschaftlicher Gruppen, die aktiv daran arbeiten (vgl. nur die Beiträge in v. Schlieffen/ Fischer, Rechtsquelle Wikipedia? Praxis – Fiktionen – Standards, 2017).
Emily Bender und Alex Hanna stellen anschaulich heraus, dass Wissensproduktion in Kunst, Journalismus oder Wissenschaft immer ein Ökosystem des Vertrauens mit der Bezugnahme auf vorangegangene Erkenntnisse voraussetzt, das durch den synthetischen Content und die starken Vereinfachungen der generativen KI empfindlich gestört werden kann (Bender/Hanna, The AI Con 2025, S. 102, 108). Wie kontextbezogen eigenes Wissen ist, habe ich zu Beginn meiner Zeit als Doktorand erfahren. Wir starteten das Projekt Open-Rewi und benötigten eine Publikationsplattform für die Preprints unserer Lehrbücher. Wikibooks ist ein spezialisierter Ableger der Wikipedia für genau solche längeren Texte. In den Diskussionsseiten der Plattform fanden wir Rat, Kritik und Hilfe von Freiwilligen, die ich bis heute nicht persönlich kennengelernt habe. Unsere Meinung darüber, wie Open-Access-Publizieren funktionieren müsste, wurde durch die inspirierende Offenheit dieser Community immer wieder infrage gestellt.
Was folgt daraus für die Wikimedia und andere Beteiligte des offenen Webs? In einem ersten Schritt das Eingeständnis, dass eine „naive“ Offenheit, die jede Verwendung zu lässt, problematisch sein kann. Yochai Benkler, ein früher Befürworter offener Netzwerke, hat hierzu bereits vor sechs Jahren deutliche Worte gefunden (Benkler, A Political Economy of Utopia?, Duke Law & Technology Review 2019, 78). Spätestens, wenn durch bestimmte technologische Praktiken die eigene Existenzgrundlage untergraben wird, muss über andere Wege nachgedacht werden. Ein Abrücken von der CC-BY-SA-Lizenz, verstärkte technische Hürden oder eine stärkere Kooperation mit der öffentlichen Hand, die freies Wissen als Grundbedingung der digitalen Souveränität respektiert, sind nur einige Beispiele. Auf die Open-Content-, aber auch auf die Open-Science-Community warten anstrengende Diskussionen. Umgekehrt stellt sich auch für Wissenschafts- und Bildungsinstitutionen die Frage, ob sie in ihren Förderentscheidungen bedingungslose Offenheit einfordern oder eine Absicherung iSd Gemeinnützigkeit zulassen.
Das im Entstehen begriffene KI-Recht sollte als übergreifen des Rechtsgebiet stärker infrastrukturelle Aspekte einbeziehen. Fraglich ist, ob dem Problem mit den bisherigen Mechanismen der Plattformregulierung wie DMA oder DSA bei zukommen ist. Weniger scheint hier das Verhalten zwischen Wettbewerbern oder innerhalb einer Plattform relevant, als vielmehr der Konflikt zwischen unterschiedlichen Regimen der Wissensorganisation. Vielversprechender ist demgegenüber der relativ flexible, risikobasierte Ansatz (Roth-Isigkeit KIR 2024, 15) bisheriger KI-Regulierungen. Ein weiteres Kriterium für die Feststellung eines Risikos könnten die oben beschriebenen Wechselwirkungen zwischen der Datengrundlage als Allgemeingut und dem abgeschlossenen KI-System sein. Aus der Open-Content-Bewegung selbst kommen Forderungen nach Varianten der symbolischen KI, die für den jeweiligen Verwendungszweck systematisch als Alternative geprüft werden sollten (Wikimedia Deutschland, Künstliche Intelligenz und Freies Wissen, 2025, S. 13, abrufbar unter: https://www.wikimedia.de/wp-content/uploads/2 025/09/KI-und-Freies-Wissen.pdf). Diese sind auf bereits strukturierte Wissensgraphen angewiesen, deren Aufbau und Kuratierung als Nebeneffekt der um sich greifenden Verwaltungsdigitalisierung ohnehin anfallen sollten. Symbolische KI hätte den Vorteil, dass der Gleichbehandlung im Verwaltungsverfahren besser entsprochen werden kann, da im Gegensatz zur konnektionistischen KI stochastische Fehler eher ausgeschlossen werden können (Wikimedia Deutschland, Künstliche Intelligenz und Freies Wissen, 2025, S. 14, abrufbar unter: https://www.wikimedia.de/wp-content/uploads/2025/09/KI-und-Freies-Wissen.pdf).
Noch konkreter stellt sich die Frage, was genau ein „freies, quelloffenes“ System iSv Art. 53 Abs. 2 KI-VO ausmacht. Hier darf es keinen Rückschritt hinter die Errungenschaften der Open-Source-Software geben, die immer von einer Gestaltbarkeit der Technologie ausgeht. Eine Gestaltbarkeit, die auch in den aufkochenden Debatten um „digitale Souveränität“ eine große Rolle spielt. Digitale Industriepolitik iSd „Eurostack“ oder „Deutschlandstack“ enthält ebenfalls KI im Katalog der förderungsfähigen zentralen Infrastrukturen, bei denen die bisherigen Fehler generativer KI nicht wiederholt werden dürfen.

Dr. Maximilian Petras ist wissenschaftlicher Mitarbeiter an der Helmut-Schmidt-Universität in Hamburg bei Prof. Dr. Armin von Weschpfennig. Er forscht in den Bereichen des öffentlichen Wirtschafts-, Regulierungs- und Planungsrechts mit einem Schwerpunkt auf digitalisierten Ressourcenflüssen.