Studie zu juristischen KI-Tools: Noch zu unzuverlässig
© tonstock / Adobe Stock

Effektiver Arbeiten durch den Einsatz von KI – das erhoffen sich viele Anwälte und Anwältinnen für die Zukunft. Doch die Gegenwart sieht anders aus, wie eine Studie der Standford University zeigt: Noch hapere es an der Zuverlässigkeit dieser Werkzeuge.

Dabei erscheint der Einsatz von KI in der juristischen Praxis zunächst durchaus verheißungsvoll, beispielsweise zum Durchforsten von Rechtsprechung oder zum Ausarbeiten von Verträgen. Doch KI hat bekannterweise Schwächen. Allem voran das Problem des so genannten Halluzinierens, also des Erfindens von Informationen durch große Sprachmodelle.

Um dem entgegenzuwirken, setzt die Industrie laut Studie neuerdings auf die Technologie der Retrieval-Augmented Generation (RAG). Im juristischen Bereich versprächen RAG-Systeme, durch die Integration eines Sprachmodells mit einer Datenbank von Rechtsdokumenten genauere und vertrauenswürdigere Rechtsinformationen zu liefern. Und tatsächlich: Die entsprechenden Tools reduzierten im Vergleich zu allgemeinen KI-Modellen wie GPT-4 tatsächlich Fehler, so die Studie. Doch fehlerfrei arbeiten sie deswegen noch lange nicht. In über 17% Prozent hätten die KI-Systeme von Lexis+ und Ask Practical Law Fehlinformationen ausgespuckt. Bei der KI-gestützten Recherche von Westlaw seien es sogar mehr als 34% gewesen, so die Studie.

Besonders brisant ist der Einsatz von KI im juristischen Bereich den Herausgebern der Studie zufolge, weil hier zwei Arten von KI-Halluzinationen möglich sind: So könne die Antwort eines KI-Tools einfach nur falsch sein – es beschreibt das Gesetz falsch oder macht einen sachlichen Fehler. Die Antwort könne aber auch falsch begründet sein – das KI-Tool beschreibe die Rechtslage korrekt, zitiere aber eine Quelle, die seine Behauptungen nicht stützt.

KI-Einsatz gerade im juristischen Bereich herausfordernd

Zudem bestünden für RAG-basierte juristische KI-Systeme einzigartige Herausforderungen, die Halluzinationen verursachen könnten. Erstens sei die Suche nach juristischen Informationen schwierig. Im Gegensatz zu anderen Bereichen bestehe das Recht nicht vollständig aus überprüfbaren Fakten, sondern entwickle sich stetig weiter.

Zweitens könne es sich bei dem abgerufenen Dokument, selbst wenn es gefunden wird, "um eine nicht anwendbare Autorität handeln". Das gilt vor allem im Bereich des US-Rechts. Denn hier unterschieden sich die Regeln und Präzedenzfälle in den verschiedenen Gerichtsbarkeiten und Zeiträumen, erläutert die Studie. Dokumente, die aufgrund ihrer semantischen Ähnlichkeit mit einer Abfrage auf den ersten Blick relevant erschienen, könnten in Wirklichkeit aus Gründen, die für das Recht typisch sind, unpassend sein.

Das dritte Problem: Die sogenannte Kriecherei – also die Tendenz Künstlicher Intelligenz, den falschen Annahmen des Anwenders zuzustimmen. Zwar attestiert die Studie den getesteten Tools diesbezüglich gute Bewältigungsmechanismen. Stimmten die Systeme indes mit falschen Behauptungen der Nutzer überein, könne dies schwerwiegende Folgen haben – "insbesondere für diejenigen, die hoffen, mit diesen Werkzeugen den Zugang zum Recht für Privatpersonen und mittellose Prozessbeteiligte zu verbessern".

Die Quintessenz der Studie: Es bedürfe eines rigorosen und transparenten Benchmarkings juristischer KI-Tools. Im Gegensatz zu anderen Bereichen sei der Einsatz von KI im Rechtswesen noch immer undurchsichtig: Die untersuchten Tools böten keinen systematischen Zugang, veröffentlichten nur wenige Details über ihre Modelle und meldeten keinerlei Bewertungsergebnisse. Diese Undurchsichtigkeit mache es für Anwälte schwierig, KI-Produkte zu nutzen und dabei ethische und berufsethische Anforderungen zu erfüllen. Erforderlich sei ein öffentliches Benchmarking und strenge Bewertungen von KI-Tools. 

Redaktion beck-aktuell, Britta Weichlein, 3. Juni 2024.