beck-aktuell: Herr Strecker, Sie forschen zum Einsatz von KI bei der Korrektur juristischer Klausuren und haben dazu schon mehrere Experimente durchgeführt. Was meinen Sie als Experte: Wird im Jahr 2030 eine KI die Klausuren im juristischen Staatsexamen korrigieren?
Michael B. Strecker: Technisch wäre das schon heute möglich. Trotzdem kann ich mir nicht vorstellen, dass eine KI die Examenskorrektur eines Tages komplett übernimmt. Unter ethischen Gesichtspunkten muss bei einer so wichtigen Prüfung, die über die berufliche Zukunft entscheidet, die menschliche Letztverantwortlichkeit sichergestellt sein. Außerdem wären solche Korrektur-Anwendungen in rechtlicher Hinsicht wohl als Hochrisiko-KI nach der KI-Verordnung einzustufen und unterlägen strengen Vorschriften.
Was ich mir aber gut vorstellen könnte, ist, dass man die Korrektorinnen und Korrektoren damit schult. Beispielsweise, indem man die KI-Korrektur als Referenzrahmen verwendet und die Prüfer auf besonders große Abweichungen bei der eigenen Notenvergabe hinweist. So könnte man die Korrektorinnen und Korrektoren sensibilisieren – beispielsweise, wenn ein Korrektor im Vergleich immer besonders streng korrigiert. Große Abweichungen zwischen menschlicher Korrektur und KI-Korrektur könnten außerdem als Indiz dafür gewertet werden, dass eine verdeckte, menschliche Zweitkorrektur notwendig ist. Das könnte die Notenvergabe fairer machen.
"Was ist eigentlich eine gute Korrektur?"
beck-aktuell: Das DigitalProjekt, ein loser Zusammenschluss von Forschenden verschiedener Universitäten, an dem Sie auch beteiligt sind, beschäftigt sich seit einiger Zeit mit der KI-Korrektur im Jurastudium. Wie kam es dazu?
Strecker: Unter der Schirmherrschaft der Professorin Marie Herberger haben wir im Wintersemester 2024/25 zunächst an der Uni Bielefeld eine E-Klausur abgehalten, bei der die Studierenden das digitale Gesetzbuch LexMea benutzen durften. Wir wollten dann auch ausprobieren, was eigentlich passiert, wenn wir KI zur Korrektur der Klausuren einsetzen. Das haben wir dann gemeinsam mit dem Kölner Uni-Start-up KlausurenKIste und dem Forschungsprojekt der Uni Passau "DeepWrite" getestet. Im Sommersemester 2025 folgte dann unter der Schirmherrschaft von Dr. Martin Heidebach und gemeinsam organisiert mit der Munich Legal Tech Student Association (MLTech) die nächste Probeklausur mit KI-Korrektur an der LMU München. Zur wissenschaftlichen Auswertung stießen dann noch Professorin Susanne Hähnchen (Uni Potsdam) und Clemens Hufeld (Noxtua) hinzu.
beck-aktuell: Wie sind Sie dabei vorgegangen?
Strecker: Am Anfang war die Idee noch simpel: Die Systeme sollten einfach mal korrigieren. Schnell kamen dann aber grundlegende Fragen auf: Was ist eigentlich eine gute, was eine sehr gute Korrektur? Nach welchen Kriterien wird bewertet? Wie viel zählt der Inhalt, wie viel die Methodik – wie etwa der Gutachtenstil, korrekte Normzitate und dergleichen? Wir haben dann schnell gemerkt: Es gibt erstaunlich wenig objektive Kriterien für die Bewertung juristischer Klausuren. Daraus ergab sich dann die Idee, das weiter zu erforschen.
"Korrektorinnen und Korrektoren benoten bisher nach Bauchgefühl"
beck-aktuell: Bei einem Experiment an der LMU München haben Sie Klausuren sowohl von einer KI als auch von menschlichen Korrektorinnen und Korrektoren benoten lassen. Wie lief das ab?
Strecker: Zunächst haben wir festgestellt, dass eine KI-Korrektur nur funktionieren kann, wenn wir der KI vorgeben, wie sie zu korrigieren hat. Das Problem: Für die KI mussten wir Dinge definieren, die wir den menschlichen Korrektorinnen und Korrektoren gar nicht vorgeben – die haben bisher einen großen Ermessensspielraum und korrigieren aus dem Bauch heraus. Das ist bei einer KI nicht möglich – zumindest nicht, wenn man verlässliche, nachvollziehbare und reproduzierbare Ergebnisse möchte.
Also haben wir uns intensiv mit der Erstellung eines sogenannten Rohpunkteschemas beschäftigt. Das sind strenge Vorgaben, was in einer Klausur wie viel wert ist. Wie viele Punkte gibt es für Zulässigkeit und Begründetheit, wie viele für eine saubere Subsumtion? Wie wichtig ist der Gutachtenstil? All das muss man einer KI erstmal beibringen. Die KI haben wir dann mit der Lösungsskizze und den darauf aufgeteilten Rohpunkten sowie der ausgearbeiteten Klausur gefüttert und sie gebeten, beides miteinander abzugleichen.
beck-aktuell: Wie funktionieren die KI-Systeme von KlausurenKIste und DeepWrite? Gibt es Unterschiede?
Strecker: Bei beiden handelt es sich um Wrapper, die man mit bekannten Large Language Models wie ChatGPT oder Gemini verwenden kann. Die Architektur unterscheidet sich vor allem darin, wie genau die Lösungsskizze mit der Klausur abgeglichen wird:
Bei der "Gesamtlösung" von DeepWrite gibt man der KI einfach die gesamte Lösung und die gesamte Klausur. Die KI sucht dann selbst nach Übereinstimmungen. Der Vorteil: hohe Kontextsensitivität. Der Nachteil: Das Feedback ist generischer und manchmal werden Dinge als richtig gewertet, obwohl sie an der falschen Stelle stehen.
Die "Absatzlösung" – mit der KlausurenKIste arbeitet – funktioniert feingliedriger. Jeder Absatz der Klausur wird einem Teil der Lösungsskizze zugeordnet. Das kann sehr präzise und sehr spezifisch sein, setzt aber voraus, dass die Klausurlösung ähnlich gegliedert ist und dem Weg der Lösungsskizze möglichst genau folgt. Die Präzision dieses Ansatzes ist hoch, aber die Flexibilität und Kontextsensitivität geringer.
"Die Notendifferenzen beim Menschen sind enorm"
beck-aktuell: Was war das überraschendste Ergebnis beim Vergleich?
Strecker: Die menschliche Streuung. Die ist viel größer, als viele vermuten – und gleichzeitig deckt sie sich mit früheren Studien. Die durchschnittliche Abweichung zwischen niedrigster und höchster vergebener Note betrug in einer früheren Studie 6,47 Punkte. Wir haben sechs Korrektorinnen und Korrektoren jede Klausur nur anhand der Lösungsskizze aber ohne Rohpunkteschema korrigieren lassen. Deren Abweichung untereinander (sogenannte Range) lag nicht im Extremfall, sondern im Schnitt über alle Klausuren verteilt bei 5,25 Punkten. Bei den acht Korrektorinnen und Korrektoren, die wir mit Rohpunkteschema korrigieren ließen, lag diese Differenz im Schnitt plötzlich nur noch bei 2,94 Punkten.
Wenn menschliche Korrektorinnen und Korrektoren mit Rohpunkteschema arbeiten, sinkt die Streuung also um 44%. Das ist massiv. Im für die Prüflinge besonders wichtigen Bereich rund um die Bestehensgrenze von vier Punkten konnten wir übrigens besonders große Differenzen zwischen den menschlichen Korrekturen ohne Rohpunkteschema feststellen. Mit Schema schrumpfte das auf wenige Punkte.
Ich finde, das ist ein unglaublich starkes Argument dafür, bei der Bewertung juristischer Klausuren ein Rohpunkteschema einzuführen – völlig unabhängig von der KI. Dass wir das erst durch die KI‑Forschung herausarbeiten mussten, ist eigentlich absurd.
"Die KI streut viel weniger, tendiert aber zur Mitte"
beck-aktuell: Wie schnitt denn die KI im Vergleich zu den menschlichen Korrektorinnen und Korrektoren ab?
Strecker: Die KI streute insgesamt viel weniger, aber sie tendierte zur Mitte. Schlechte Klausuren wurden besser, sehr gute etwas schlechter als durch die menschlichen Korrektorinnen und Korrektoren bewertet. Woran genau das liegt, müssen wir noch weiter untersuchen. Das kann sowohl an einem falschen Prompting der KI-Systeme aber auch an systemischen Fehlern der menschlichen Korrektur – wie etwa einfach zu hohen Durchfallquoten liegen. Es ist hier mangels vorhandener Maßstäbe enorm schwer zu definieren, welche Korrektur "richtig" ist. Im Hinblick auf die Notengerechtigkeit und Gleichbehandlung ist das aber ein großes Thema.
beck-aktuell: Gibt es noch etwas, das die KI besser kann als der Mensch?
Strecker: Beim summativen Feedback – also bei der Note – ist die KI heute schon objektiver als ein schlechter menschlicher Korrektor. Beim formativen Feedback – also den Randbemerkungen und dem Votum – ist sie sogar deutlich besser. Da ist das Feedback der KI in der Regel deutlich schneller, individueller und ausführlicher als das der menschlichen Korrektorinnen und Korrektoren, die oft nur ein paar Stichworte drunterschreiben. Aber gerade dieses Feedback ist für Jurastudierende, die sich auf das Examen vorbereiten, wichtig.
"Der Status quo wird oft verteidigt"
beck-aktuell: Wie haben die Professorinnen und Professoren auf das Experiment reagiert?
Strecker: Sehr gemischt. Manche sind begeistert, andere lehnen die KI-Korrektur ab, weil sie intransparent ist, also eine Art Blackbox. Es gibt von vielen Seiten einen starken Hang, den Status quo zu erhalten. Aber die Frage ist meines Erachtens nicht, ob die KI vollständig transparent und objektiv ist, sondern ob sie transparenter und objektiver ist als der heutige Status quo. Und ja: Im Training der Studierenden ist sie schon heute eindeutig ein Gewinn. Die KI liefert sofortiges, sehr detailliertes Feedback — anders als eine Übungsklausur, die man vier Wochen später und ohne Begründung zurückbekommt. Das sollten auch die Unis erkennen.
Auch dem Einsatz von Rohpunkteschemata wird häufig pauschal der Ermessensspielraum der Korrektorinnen und Korrektoren entgegengehalten. Ich halte das für einen falschen Schluss vom Sein aufs Sollen und bin hier stark für präzisere Vorgaben – die ihrerseits natürlich Raum für begründete Abweichungen lassen müssen.
beck-aktuell: Wie geht es mit Ihrer Forschung weiter?
Strecker: Wir starten gerade den nächsten Schritt: Fünf menschliche Korrekturkräfte korrigieren diesmal die KI‑Korrektur – also das Feedback selbst. Dafür entwickeln wir Kriterien: Was macht gutes Feedback aus? Was erkennt die KI richtig, wo halluziniert sie? Welche juristische Präzision ist notwendig? Das ist wieder ein eigenes Projekt.
"KI‑unterstützte Bewertung könnte langfristig zur Fairness beitragen"
beck-aktuell: Arbeiten Sie mit den Unis zusammen, damit die KI-Korrektur in Zukunft beispielsweise bei Übungsklausuren eingesetzt werden kann?
Strecker: Ja. Das Forschungsprojekt läuft weiter, wir haben Förderanträge gestellt. Gleichzeitig bauen wir die Integration zwischen LexMea und KlausurenKIste aus. Professorinnen und Professoren können schon jetzt im Broadcast‑Modus von LexMea Materialien teilen, und Studierende können künftig darüber auch Fälle lösen und KI‑Feedback bekommen. Für die Zukunft ist geplant: Das Online‑Gesetzbuch und auch der Broadcast‑Modus bleiben kostenlos. Für die KI‑Korrektur wird es wahrscheinlich ein Premium‑Modell geben.
beck-aktuell: Haben Sie auch Kontakt zu den Justizprüfungsämtern?
Strecker: Ja, aber das ist schwierig. Manche Ämter denken stark verwaltungsrechtlich: Sie wollen möglichst wenig Angriffsfläche bieten. Also lieber wenig Randbemerkungen; wenn nichts dokumentiert ist, kann man nichts angreifen. Das führt aber dazu, dass Noten zwar in der Prüfungsanfechtung schwerer angreifbar sind, aber auch weniger nachvollziehbar – und das macht das Staatsexamen nicht gerechter. Eine KI‑unterstützte Bewertung könnte langfristig enorm viel zur Fairness beitragen — und zur Rechtssicherheit. Aber dafür muss der Wille da sein. Andere Ämter zeigen sich hier durchaus offener. Aber das wird sicher noch ein paar Jahre dauern.
Michael B. Strecker ist Doktorand am Lehrstuhl für Öffentliches Recht, insb. Verwaltungsrecht (Prof. Dr. Thomas Wischmeyer, Humboldt-Universität zu Berlin) und Gründer der Jura-Plattform LexMea.de.
Die Fragen stellte Dr. Jannina Schäffer.


