Das Problem sitzt vor dem Bildschirm: Legal AI scheitert an Aufgaben, an denen sie nicht scheitern müsste
© Adobe Stock: liubomir

Viele Juristinnen und Juristen testen KI-Modelle mit Aufgaben, die diese strukturell gar nicht lösen können – und schließen vorschnell auf eine mangelnde Leistungsfähigkeit. Dabei liegt das Problem häufig nicht im Modell, sondern in einer fehlerhaften Anwendung, erläutert Marc Ohrendorf.

Die KI-Nutzung im Rechtsmarkt hat sich innerhalb eines Jahres mehr als verdoppelt: Fast sieben von zehn Juristinnen und Juristen setzen generative KI-Tools bereits bei der Arbeit ein – zu diesem Ergebnis kommt der Legal Industry Report 2026. Gleichzeitig wächst die Frustration. Modelle liefern unbrauchbare Ergebnisse, halluzinieren Fundstellen oder produzieren generische Texte, die keinen Mehrwert bieten. Anwältinnen und Anwälte sowie Rechtsabteilungen hinterfragen deswegen zunehmend die teure Anschaffung vermeintlich spezialisierter Software.

Eine Schlussfolgerung liegt nahe: Die Technologie ist noch nicht reif genug. Doch bei genauerer Betrachtung zeigt sich häufig ein anderes Bild. Nicht eine spezifische Software versagt – sie wird mit Aufgaben konfrontiert, die sie strukturell gar nicht lösen kann, das darunterliegende Modell jedoch technisch lösen könnte.

Das Cutoff-Date-Problem: Wenn KI nicht mehr weiß als der Trainingsstand

Ein häufiges Szenario: Eine Anwältin möchte wissen, ob es zu einem bestimmten Thema aktuelle Rechtsprechung der letzten Monate gibt. Sie tippt die Frage in ChatGPT oder ein vergleichbares Tool – und erhält eine Antwort, die auf den ersten Blick plausibel klingt. Urteile werden zitiert, Aktenzeichen genannt, Leitsätze formuliert. Das Problem: Viele dieser Urteile existieren nicht. Das Modell halluziniert, weil es keinen Zugriff auf eine Rechtsprechungsdatenbank hat und sein Wissensstand an einem bestimmten Datum endet – dem sogenannten Knowledge-Cutoff-Date. Dem Nutzenden ist häufig nicht bekannt, dass Large Language Models über Stichtags-Wissen verfügen und Informationen jenseits dieses Datums schlicht nicht kennen können.

Die Forschung zeigt, wie gravierend dieses Problem ist. Eine Studie der Universität Stanford ergab, dass die Halluzinationsrate bei juristischen Anfragen an Large Language Models zwischen 58 und 88% liegt, wenn diese mit spezifischen, überprüfbaren Fragen zu Gerichtsentscheidungen konfrontiert werden. Die KI-Modelle erfinden nicht nur Urteile, sondern verteidigen ihre falschen Angaben auch auf Nachfrage. Denn sie verfügen nicht über die Fähigkeit, zwischen Wissen und Nichtwissen zu unterscheiden.

Die Konsequenzen sind längst in deutschen Gerichtssälen angekommen. Das OLG Celle stellte im April 2025 fest, dass ein Beklagtenvertreter vier angebliche OLG-Entscheidungen zitiert hatte, die allesamt frei erfunden waren. Das LG Frankfurt deckte im September 2025 auf, dass ein Rechtsanwalt halluzinierte BGH-Zitate zur Streitwertberechnung vorgelegt hatte. Das AG Köln urteilte, dass "sämtliche aufgeführten Quellen im Schriftsatz schlichtweg erfunden" waren.

In all diesen Fällen war der Grundfehler identisch: Den KI-Modellen wurde eine Aufgabe gestellt, die sie ohne Zugriff auf eine aktuelle Rechtsprechungsdatenbank nicht lösen können. Der Fehler lag nicht in der Technologie, sondern in der Erwartung, ein Sprachmodell, gegebenenfalls kombiniert mit weiteren Suchtools im offenen Web, könne als zuverlässige Datenbank dienen.

Die implizite Wissensannahme: "Das weiß man doch"

Das zweite wiederkehrende Muster ist subtiler, aber mindestens ebenso folgenreich. Ein Fachanwalt für Arbeitsrecht möchte ein KI-Modell nutzen, um einen Schriftsatz zu entwerfen. Er promptet: "Erstelle mir einen Schriftsatz für eine Kündigungsschutzklage, Mandant wurde betriebsbedingt gekündigt, Betriebszugehörigkeit 12 Jahre." Das Ergebnis ist technisch korrekt, aber inhaltlich unbrauchbar – es fehlt die kanzleispezifische Tonalität, die präferierte Argumentationsstruktur, die Berücksichtigung der lokalen Gerichtspraxis, der Verweis auf die einschlägige Kommentarliteratur und Dutzende weiterer Nuancen, die erfahrene Arbeitsrechtlerinnen und Arbeitsrechtler als selbstverständlich empfinden und "miterledigen".

Was hier geschieht, lässt sich als implizite Wissensannahme beschreiben: Der Nutzende setzt voraus, dass das Modell "schon weiß, wie man das macht". Tatsächlich müsste (und kann!) man dem Modell einmalig, analog zu einem neu eingestellten Referendar oder Junior Associate, über mehrere DIN-A4-Seiten hinweg erklären, wie die als natürlich empfundene Vorgehensweise aussieht. Welche Argumentationslinien man grundsätzlich bevorzugt. Welche Formulierungen die Kanzlei verwendet. Welche Fundstellen sich in der Vergangenheit als wertvoll erwiesen haben. Welche Mandanteninteressen im konkreten Fall im Vordergrund stehen.

Ohne diesen Kontext produziert das Modell zwangsläufig generische Ergebnisse. Die Schlussfolgerung "Das Modell taugt nicht für meine Arbeit" ist nachvollziehbar, aber falsch. Das KI-Modell hatte schlicht nicht die Informationen, die es für eine brauchbare Antwort benötigt hätte.

Der Referendar-Test als Gradmesser

Eine hilfreiche Heuristik für die Arbeit mit LLMs ist der Referendar-Test: Wenn ein neu eingestellter Rechtsreferendar die gleiche Aufgabe ohne weitere Anleitung ebenso wenig lösen könnte, dann fehlt dem Modell der nötige Kontext. Was für erfahrene Juristinnen und Juristen selbstverständliches Erfahrungswissen darstellt, ist für ein LLM ebenso unbekannt wie für eine Berufseinsteigerin oder einen Berufseinsteiger am ersten Tag.

Der entscheidende Unterschied: Der Referendar kann nachfragen. Das Modell tut das in der Regel nicht – es produziert stattdessen einen Output, der oberflächlich professionell wirkt, aber den impliziten Qualitätsanforderungen der Kanzlei nicht genügt. Infolgedessen wird dem KI-Modell mangelnde Qualität zugeschrieben. Möglicherweise wird ein anderes Modell oder eine andere Software ausprobiert, die besondere Anpassungen für den Rechtsmarkt verspricht, jedoch oft die gleichen zugrundeliegenden Modelle nutzt – mit ähnlich enttäuschendem Ergebnis. Tatsächlich könnten Anwenderinnen und Anwender den Fehler mit bewusstem AI-Systemdesign, Context Engineering und gesteigertem technischen Verständnis vermeiden.

KI ist kein allwissender Rechtsberater

Die Lösung liegt nicht darin, auf bessere Modelle oder vermeintlich "echte" Legal AI zu warten. Sie liegt darin, die Art der Interaktion zu verändern. Drei Ansätze bieten sich zum (erneuten) Start oder zur Vertiefung an:

Erstens: Die gezielte Anreicherung mit Kontext und eigenen Daten. Statt das KI-Modell aus seinem Trainingswissen antworten zu lassen, wird es mit den Informationen versorgt, die es für eine fundierte Antwort braucht – sei es durch den Upload von Dokumenten (Kontextanreicherung, je nach Länge durch Retrieval-Augmented-Generation), durch strukturierte Prompts oder durch beides zugleich. Konkret bedeutet das: Referenztexte mitliefern, Argumentationsstrukturen vorgeben, die gewünschte Tonalität beschreiben und den Anwendungskontext benennen. Ein M&A-Vertragsentwurf, der neben dem Prompt auch die bisherige Vertragspraxis der Kanzlei, Musterklauseln und mandantenspezifische Präferenzen enthält, liefert grundlegend andere Ergebnisse als ein isolierter Prompt ohne jeglichen Kontext. Wird das KI-Modell darüber hinaus mit externen Datenquellen wie Rechtsprechungsdatenbanken oder Kommentarliteratur verbunden, sinkt auch die Halluzinationsrate erheblich.

Zweitens: Ein iteratives Vorgehen. Die Arbeit mit einem KI-Tool ist kein einmaliger Befehl, sondern ein Gespräch. Wer den Austausch mit dem Assistenten als Dialog begreift, gelangt nicht nur zu besseren Ergebnissen, sondern auch zu einem eigenen Erkenntnisgewinn. Häufig ist es gerade dieser iterative Prozess, der schließlich zu dem einen Prompt führt, der das gewünschte Ergebnis liefert – und nicht selten darüber hinausgehende Ausführungen produziert, die auf neue Ideen bringen, an die man ohne diesen Weg nicht gedacht hätte.

Drittens: Eine realistische Erwartungshaltung. Ein LLM ist kein allwissender Rechtsberater. Es ist ein Werkzeug, das innerhalb seiner Grenzen – Sprachverständnis, Mustererkennung, Texterzeugung – exzellent arbeitet. Wer diese Grenzen kennt, kann gezielt daran arbeiten, sie durch Datenanbindung, Kontextierung und eben jenen iterativen Dialog zu erweitern. Im Anschluss kann die Entwicklung team- und hauseigener Agenten und Workflows beginnen.

Die richtigen Fragen stellen

Der Rechtsmarkt steht nicht vor einem Technologieproblem, sondern vor einem Kompetenzproblem. Die KI-Modelle werden besser, schneller und leistungsfähiger – doch ohne das entsprechende Wissen auf der Nutzerseite bleibt ihr Potenzial unausgeschöpft. Die Thomson Reuters-Studie zur AI Strategy Divide zeigt: Organisationen mit einer formalen KI-Strategie sind 3,5-mal häufiger in der Lage, kritische KI-Vorteile zu realisieren, als jene ohne definierte Strategie. Doch nur 22% der Organisationen verfügen über eine solche Strategie.

Das bedeutet: Fast vier von fünf Kanzleien und Rechtsabteilungen setzen KI ein, ohne systematisch zu verstehen, was diese Technologie neben Marketingeffekten leisten kann – und was nicht. Der erste Schritt, um KI produktiv zu nutzen, ist daher nicht die Wahl des richtigen Tools, sondern das Verständnis der damit einhergehenden Herausforderungen, die diese Transformation für den Rechtsmarkt und seine Akteure bedeutet. Wer dies erkennt, hört auf, dem Modell die Schuld zu geben – und beginnt, die richtigen Fragen zu stellen.


RA Marc Ohrendorf, LL.M. (UCL, London) ist Experte in den Bereichen Rechtstechnologie und künstliche Intelligenz. Er ist zudem Unternehmer und Podcast-Host.

Gastbeitrag von Marc Ohrendorf, 12. März 2026.

Mehr zum Thema