US-Studie: KI schlägt Anwältinnen und Anwälte in ihrer eigenen Domäne
© Adobe Stock / abdelaziz@771

Eine neue Benchmark-Studie vergleicht die Leistung von vier KI-Produkten mit der Arbeit von Anwältinnen und Anwälten. Bei den meisten Aufgaben übertrafen die KI-Tools die menschlichen Ergebnisse – doch nicht in allen Bereichen.

Eine aktuelle Studie von Vals AI hat die Leistungsfähigkeit von vier generativen KI-Tools im juristischen Kontext untersucht. Bewertet wurden sieben typische Aufgaben aus dem Kanzleialltag – darunter Dokumentenanalyse, Zusammenfassungen und Recherche. Die Ergebnisse zeigen: Bei den meisten Aufgaben schnitten die eingesetzten KI-Tools besser ab als die Vergleichsgruppe der Juristinnen und Juristen.

Die Studie basiert auf einem Datensatz aus über 200 juristischen Fragestellungen, den acht US-Kanzleien bereitstellten, nämlich Reed Smith, Fisher Philips, McDermott Will & Emery, Ogletree Deakins, Paul Hastings und Paul Weiss. Zu den vier im Juli 2025 getesteten KI-Produkten gehörten: Alexi, Counsel Stack, Midpage und OpenAI.

Die KI trat dabei gegen Anwältinnen und Anwälte an, die dieselben Aufgaben ohne KI-Unterstützung bearbeiteten. Die Studie analysierte die Antworten anhand dreier Kriterien: Genauigkeit, Belegbarkeit und Angemessenheit.

KI punktet bei Genauigkeit

Die wichtigsten Ergebnisse der Studie: Auf Basis der durchschnittlich gewichteten Punktzahl (in Prozent) lagen alle KI-Produkte in einer Spanne von vier Prozentpunkten zueinander (74%–78%) und innerhalb von neun Punkten zur Vergleichsgruppe der Anwältinnen und Anwälte (69%). Die juristischen KI-Produkte erzielten insgesamt bessere Ergebnisse als nichtspezialisierte KI-Tools. Selbst diese schnitten allerdings besser ab als die Anwältinnen und Anwälte – und das in allen drei Bewertungskategorien. Die besten Ergebnisse erzielte das Tool Counsel Stack, das in jeder Kategorie die höchste Punktzahl erreichte.

Die durchschnittliche Genauigkeit der KI-Produkte lag bei 80%, während die Juristinnen und Juristen 71% erreichten. Besonders auffällig: Die spezialisierten Legal-KI-Produkte (Alexi, Counsel Stack, Midpage) lagen nur knapp über dem allgemeinen KI-Tool ChatGPT.

Bei der Belegbarkeit – also der Qualität und Relevanz der Quellen – lagen die Legal-KI-Produkte mit 76% deutlich vor ChatGPT (70%). Anwältinnen und Anwälte erreichten lediglich eine Bewertung von 68%. Die spezialisierten KI-Tools konnten hier vor allem durch den Zugriff auf eigene Datenbanken punkten.

In der Kategorie Angemessenheit, bei der die Mandantenfreundlichkeit und Verständlichkeit der Antworten geprüft wurde, erreichten die Legal-KI-Produkte 70%, ChatGPT 67% und die Juristinnen und Juristen überraschenderweise nur 60%. 

Anwälte seltener "Nullnummern"

In 150 von 200 Fragen lagen die KI-Produkte vor der menschlichen Vergleichsgruppe. Der durchschnittliche Vorsprung betrug 31 Prozentpunkte. Die Juristinnen und Juristen lagen lediglich bei vier von zehn Fragetypen vorn. Das war insbesondere bei Fragen der Fall, die tieferes Kontextverständnis, komplexe multinationale Prüfungen und menschliches Urteilsvermögen erforderten. Hier betrug der Vorsprung der Anwältinnen und Anwälte im Schnitt 9 Prozentpunkte.

Die Juristinnen und Juristen erzielten zudem weniger Nullwertungen. Counsel Stack lieferte hingegen bei vier Fragen keine Antwort, Midpage bei drei. Alexi, Midpage und ChatGPT gaben bei mehreren Fragen zudem an, keine passenden Quellen gefunden zu haben.

Durchgeführt wurde die Studie von Vals AI mit Sitz in San Francisco. Das Unternehmen bezeichnet sich selbst als "unabhängige Plattform für die Weiterentwicklung und Zukunft von generativer KI". Gegründet wurde Vals AI 2023 von den Stanford-Alumni Rayan Krishnan und Langston Nashold.

Redaktion beck-aktuell, Dr. Jannina Schäffer, 22. Oktober 2025.

Mehr zum Thema