
ChatGPT und andere Large Language Models (LLM – „Große Sprachmodelle“, sog. Generative Künstliche Intelligenz, z.B. Copilot) versprechen ein schnelles und unkompliziertes Erstellen von Berichten und Präsentationen. Doch sind die Ausführungen der KI mit Vorsicht zu genießen, wie ein aktueller Fall aus Australien zeigt.
Praxis-Info!
Problemstellung
Im Auftrag des australischen Department of Employment and Workforce Relation (quasi „Arbeitsministerium“) hatte die Wirtschaftsprüfungsgesellschaft Deloitte eine Untersuchung zu einem der Sozialhilfeprogramme unternommen. Die Ergebnisse wurden in Form eines 237 Seiten umfassenden Reports im Juli 2025 auf den Internetseiten des Ministeriums veröffentlicht und fanden zunächst wenig mediale Beachtung.
Dies änderte sich, nachdem ein Mitarbeiter der Universität Sydney bemerkte, dass der Bericht Zitate und Quellenangaben von nicht existierenden Rechtsexperten enthielt. Bei genauerer Untersuchung fiel auf, dass der – immerhin mit AUD 439.000 (ca. € 250.000) vergütete Bericht – eine Reihe von nicht existierenden Quellenangaben und sogar erfundene Zitate eines Bundesrichters enthielt. Als Fehlerquelle wurden dabei Halluzinationen – also Erfindungen – von dem verwendeten LLM-Programm ausgemacht. Die Verwendung des LLM-Programms war in der ursprünglichen Fassung nicht angemerkt.
Lösung
Nach Veröffentlichung der Ergebnisse musste der Bericht von Deloitte in einer berichtigten Version erneut veröffentlicht werden. Die überarbeitete Version enthält nun an zwei Stellen den Hinweis, dass bei der Erstellung das Large Language Model Azure OpenAI GPT-4o zur Anwendung kam.
Neben dem enormen Medienecho musste die Wirtschaftsprüfungsgesellschaft auch einen Teil der bereits erhaltenen Vergütung zurückzahlen. Dies wurde unter anderem damit begründet, dass in der ursprünglichen Berichtsversion nicht auf die Verwendung von LLM-Programmen hingewiesen worden war. Die australische Regierung gab darüber hinaus bekannt, bei Beratungsverträgen zukünftig strengere Regeln zur Nutzung von KI-Anwendungen schaffen zu wollen.
Es ist davon auszugehen, dass der ursprüngliche Bericht einer internen Qualitätskontrolle unterworfen wurde. Dass dennoch so gravierende Fehler enthalten waren, zeigt die Schwierigkeit, in einem umfangreichen von KI erstellten Text mögliche Fehler zu finden:
- Im Prinzip muss hierbei jedes Zitat, jeder Quellennachweis und jede Referenz (etwa zu früheren Gerichtsurteilen) auf ihre Authentizität hin geprüft werden.
- Darüber hinaus sollte ein seriöser Bericht einen Hinweis enthalten, wenn bei seiner Erstellung LLM-Programme oder andere KI-Anwendungen zum Einsatz gekommen sind.
Christian Thurow, Dipl.-Betriebsw. (BA), Senior Risk Manager, London (E-Mail: c.thurow@thurow.co.uk)
BC 11/2025
BC20251117