Das sogenannte Text und Data Mining hat eine enorme Bedeutung für die Entwicklung und Verbesserung von KI-Systemen. Es handelt sich dabei um einen Sammelbegriff für Verfahren, die das Internet nach Datensätzen durchsuchen und diese auswerten. Hintergrund ist, dass KI-Anwendungen große Mengen an Daten benötigen, um - grob gesagt - die Welt zu verstehen. Plakativ ausgedrückt: Eine künstliche Intelligenz kann zuverlässiger das Bild eines braunen Pudels erzeugen, wenn man ihr zuvor Tausende Bilder von braunen Pudeln gezeigt hat (dass es sich um braune Pudel handelt, sollte am besten daneben stehen). Zuverlässiges Datenmaterial ist aber mitunter rar.
Im vorliegenden Fall, den das LG Hamburg zu entscheiden hatte, hatte ein Fotograf gegen das gemeinnützige Forschungsnetzwerk Laion geklagt, das eine Datenbank mit knapp 6 Milliarden Bild-Text-Paaren im Netz kostenfrei zur Verfügung stellt. Darin fand sich auch eines der Bilder des Fotografen, der dem Verein dessen Nutzung untersagen wollte. Damit scheiterte er aber nun in erster Instanz (Urteil vom 27.09.2024 - 310 O 227/23).
Urheberrecht privilegiert Text und Data Mining für wissenschaftliche Zwecke
Laion hatte das Bild nebst Metadaten - wie viele andere - zuvor selbst von einem weiteren Anbieter bezogen und mit einer Software auf Übereinstimmung mit der zugehörigen Bildbeschreibung überprüft. Die Fotoagentur, von deren Website das Bild des Fotografen ursprünglich heruntergeladen worden war, hatte in ihren Nutzungsbedingungen einen in englischer Sprache verfassten Vorbehalt ausgesprochen, wonach Besucher der Seite die Bilder nicht mittels automatisierter Programme "downloaden" oder "scrapen" dürften.
In dem Streit ging es nun nicht - dies betont die Hamburger Zivilkammer - um die Erlaubnis, das Bild zum KI-Training zu verwenden, sondern ausschließlich darum, ob Laion das Bild herunterladen durfte, um es anschließend für seine Datenbank mit der Bildbeschreibung abzugleichen. Eben dies sah das LG dem Verein nicht aufgrund des Urheberrechts verwehrt.
§ 60d UrhG enthält eine Schrankenbestimmung für das Urheberrecht zugunsten der Nutzung von Text und Data Mining Verfahren, um Inhalte im Interesse der Wissenschaft zu sammeln und auszuwerten. Sinn und Zweck der Regelung ist es, eine rechtssichere Forschung zu ermöglichen, ohne dabei auf Urheberrechte Dritter Rücksicht nehmen zu müssen. Diese Vorschrift griff hier nach Ansicht der Hamburger Richterinnen und Richter. Der Abgleich von Bild und Beschreibung sei eine von der Vorschrift privilegierte Analyse zum Zwecke der Gewinnung von Informationen über Korrelationen - in diesem Fall zwischen Bildinhalt und Bildbeschreibung. Dass der Datensatz später zum Training von KI-Anwendungen verwendet werden konnte, führte aus Sicht der Kammer zu keiner anderen Bewertung.
Langes obiter dictum zur Maschinenlesbarkeit
Ebenfalls interessant an der Entscheidung ist, dass sich das LG dann noch intensiv einer für diesen Rechtsstreit gar nicht mehr relevanten Frage widmete. Dabei ging es um die Erlaubnisvorschrift für Text und Data Mining in § 44b UrhG, nach der Vervielfältigungen von "rechtmäßig zugänglichen" Werken für das Text und Data Mining zulässig sind. "Rechtmäßig zugänglich“ ist ein Werk etwa dann, wenn es frei im Internet verfügbar ist oder wenn der Nutzer selbst zum Zugang berechtigt ist. Die Kammer deutete in ihrer Entscheidung an, dass sie die Vorschrift hier nicht für anwendbar gehalten hätte. Hintergrund des "Schlenkers" der Kammer ist wohl, dass sich im Verfahren ein Großteil der rechtlichen Ausführungen auf diese Norm konzentrierte.
Die Frage war hier - oder wäre gewesen -, ob der Rechtsinhaber (die Fotoagentur) sich die fraglichen Nutzungen vorbehalten hatte, was eine Anwendung der Norm ausschlösse. Bei online zugänglichen Werken, führte das Gericht aus, sei ein solcher Vorbehalt nur dann wirksam, wenn er "in maschinenlesbarer Form" vorliege. Was das bedeutet, ist jedoch bis dato umstritten. Nach Ansicht der Kammer war der Nutzungsvorbehalt auf der Webseite der Fotoagentur in "natürlicher Sprache" verfasst. Daher befasste sie sich mit der Frage, ob auch diese "maschinenlesbar" sei.
Die Beantwortung dieser Frage hänge von der technischen Entwicklung ab, so das LG. Angesichts der Fortschritte in der KI-Entwicklung, wodurch Programme heute auch in natürlicher Sprache geschriebene Texte inhaltlich erfassen könnten, seien nicht bloß im Webseiten-Code hinterlegte Nutzungsvorbehalte umfasst, sondern auch in natürlicher Sprache formulierte. Den Interessenkonflikt zwischen Text und Data Mining und Urheberrecht könne man nicht einseitig zugunsten des Ersten lösen, meinten die Richterinnen und Richter, die auch einen Wertungswiderspruch sahen, wenn man den Anbietern von KI-Modellen zwar über die Privilegierungen für Text und Data Mining die Entwicklung immer leistungsfähigerer KI-Modelle ermögliche, gleichwohl deren Fähigkeiten nicht bei der Beurteilung eines wirksamen Nutzungsvorbehaltes einbeziehe. Dafür spreche schließlich auch die unionsgesetzgeberische Wertung in der KI-Verordnung, wonach KI-Anbieter eine Strategie zur Ermittlung und Einhaltung eines geltend gemachten Nutzungsvorbehalts "auch durch modernste Technologien" vorzuhalten hätten.