Die Frage, die niemand rigoros testen will#
Jeder, der KI nutzt, weiss, dass sie halluziniert. Die meisten haben eigene Geschichten: ein erfundener Buchtitel, ein gefaelschter BGH-Fall, eine selbstbewusste falsche Antwort ueber den eigenen Technik-Stack.
Aber "halluziniert manchmal" ist eine vage Behauptung. Wie oft? In welchen Bereichen? Welche Modelle scheitern schlimmer? Und entscheidend: Scheitert es haeufiger, wenn der Einsatz hoeher ist?
Ich habe entschieden, eine Ecke davon empirisch zu testen. Keine richtige akademische Studie, aber ein strukturierter Selbstversuch, den ich reproduzieren konnte. Das Thema: Deutsches GmbH-Recht, speziell Fragen, die ein Gruender eines kleinen Unternehmens tatsaechlich stellen koennte. Der Einsatz: Die falsche Antwort koennte zu persoenlicher Haftung, Steuerstrafen oder einem unwirksamen Vertrag fuehren.
Ich habe keine juristische Qualifikation. Aber ich habe eine Studienkollegin aus dem Jura-Studium, die eine hat und bereit war, jede KI-Antwort gegen die tatsaechlichen Quellen zu pruefen. Das haben wir herausgefunden.
Der Test-Aufbau#
Zehn Fragen, alle echte Dinge, die ich oder Gruender-Freunde im letzten Jahr ueber GmbH-Recht gefragt hatten. Alle beantwortbar aus deutschem Handels- und Steuerrecht. Keine obskuren Edge Cases, alles Dinge, die ein kompetenter deutscher Anwalt in unter fuenf Minuten beantwortet.
Vier Modelle getestet, alle mit ihren Default-Einstellungen im Maerz 2026:
- GPT-5.4 via ChatGPT Plus
- Claude Opus 4.6 via Claude Pro
- Gemini 2.0 Pro via Google One AI Premium
- Perplexity Pro (als recherche-fokussierter Baseline)
Jedes Modell bekam jede Frage frisch in einer neuen Konversation, auf Deutsch gestellt, mit demselben Rahmen: "Ich bin ein GmbH-Gruender, bitte erklaere..." Keine System-Prompts, keine Nachfragen, eine Antwort pro Frage.
Meine Jura-Studienkollegin bewertete jede Antwort gegen das tatsaechliche Handelsgesetzbuch (HGB), GmbH-Gesetz (GmbHG) und relevantes Steuerrecht. Bewertungsskala:
- Richtig: die Antwort ist substantiell korrekt, keine Fabrikationen
- Teilweise richtig: die Antwort ist in Richtung korrekt, aber fehlt oder missdeutet Details
- Falsch: die Antwort ist faktisch inkorrekt, irrefuehrend oder enthaelt erfundene Zitate
Die Ergebnisse#
Ueber 40 Gesamt-Antworten (10 Fragen, 4 Modelle):
Richtig: 18 (45 %) Teilweise richtig: 14 (35 %) Falsch: 8 (20 %)
Eine von fuenf Antworten auf eine echte Rechtsfrage war komplett falsch. Nicht "leicht daneben"-falsch, sondern die Art von falsch, die echten Schaden produzieren wuerde, wenn man danach handelt.
Nach Modell:
- Perplexity Pro: 7/10 richtig, 3/10 teilweise richtig, 0/10 falsch
- Claude Opus 4.6: 6/10 richtig, 3/10 teilweise richtig, 1/10 falsch
- GPT-5.4: 4/10 richtig, 4/10 teilweise richtig, 2/10 falsch
- Gemini 2.0 Pro: 1/10 richtig, 4/10 teilweise richtig, 5/10 falsch
Perplexitys Fuehrung ist keine Ueberraschung. Es grundet Antworten in Websuche-Ergebnissen und zitiert Quellen, was die Fabrikations-Oberflaeche reduziert. Claude war das beste reine LLM. Gemini war viel schlechter als erwartet, mit haeufigen Zitaten deutscher Steuerparagraphen, die entweder nicht existieren oder etwas anderes sagen, als das Modell behauptete.
Die schlimmsten Fehler#
Drei der acht falschen Antworten sind es wert, beschrieben zu werden, weil sie den Failure-Mode illustrieren.
Fehler 1 (GPT-5.4): Gefragt nach der Mindestkapitalanforderung fuer eine UG (haftungsbeschraenkt). Das Modell sagte selbstbewusst 25.000 EUR, was die volle GmbH-Anforderung ist. UG erfordert tatsaechlich mindestens 1 EUR. Das ist die Art Fakt, nach der ein Gruender handeln koennte, wenn er entscheidet, welche Rechtsform er nutzt.
Fehler 2 (Gemini 2.0 Pro): Gefragt nach dem Verfahren fuer einen Geschaeftsfuehrerwechsel. Das Modell beschrieb einen Prozess, der deutsches und oesterreichisches GmbH-Recht vermischte, zitierte selbstbewusst Paragraphen des GmbHG, die entweder umnummeriert waren oder nicht existierten, und gab eine Zeitschiene, die um Wochen daneben lag. Nach diesem Rat zu handeln haette eine ungueltige Anmeldung produziert.
Fehler 3 (Claude Opus 4.6): Gefragt, ob eine GmbH ihre eigenen Anteile halten kann. Das Modell sagte ja, mit Vorbehalten zu Kapitalruecklagen. Die tatsaechliche Regel ist restriktiver, als das Modell sie praesentierte. Nicht fabriziert, aber unvollstaendig auf eine Art, die bei einer tatsaechlichen Transaktion zaehlen wuerde.
Beachten Sie: Auch das "beste" LLM hatte eine signifikante falsche Antwort. Die Fehlerrate ist fuer keines der reinen Modelle null.
Was die Kategorie "teilweise richtig" Ihnen sagt#
Die "teilweise richtigen" Antworten sind tatsaechlich das heimtueckischere Problem. Sie lesen sich gut. Sie klingen autoritaer. Sie sind in Ton und allgemeiner Richtung korrekt. Ein Laie, einschliesslich der meisten Gruender, wuerde nicht merken, was falsch ist.
Eine der teilweise richtigen Antworten von Claude zum Beispiel beschrieb die steuerliche Behandlung von GmbH-Ausschuettungen korrekt, verwechselte aber das Teileinkuenfteverfahren (60 Prozent Teilfreistellung) mit dem aelteren Halbeinkuenfteverfahren. Fuer die meisten Zwecke waere das ein harmloser Fehler. Fuer jemanden, der erwartetes Nach-Steuer-Einkommen auf eine grosse Ausschuettung berechnet, waere das eine 4-6-prozentige Fehlkalkulation zu seinen Gunsten.
Das Modell log nicht. Es fusionierte selbstbewusst zwei aehnlich aussehende Frameworks. Das ist schlimmer als eine Halluzination, weil es Ihren Skeptiker-Instinkt nicht triggert, so wie ein erfundenes Zitat es tun wuerde.
Warum das passiert#
Rechtstexte sind aus drei spezifischen Gruenden ungewoehnlich gefaehrlich fuer LLMs.
Erstens: Das Quellmaterial ist dicht, technisch und selbstreferenziell. Paragraphen referenzieren andere Paragraphen. Aenderungen veraendern spezifische Klauseln, ohne die umgebende Struktur zu aendern. Das statistische Muster des Modells fuer "wie Rechtstext aussieht" ist stark, aber seine Faehigkeit, welche spezifische Regel in welchem spezifischen Kontext gilt, zu verfolgen, ist viel schwaecher.
Zweitens: Antworten in Rechtsbereichen haben ein charakteristisches Selbstvertrauens-Register. Anwaelte hedgen nicht. Sie stellen Regeln fest. Modelle imitieren diesen Ton gut, was eine falsche Antwort so autoritaer klingen laesst wie eine richtige.
Drittens: Kleinere Gesetzes-Updates passieren staendig, und der Trainings-Cutoff des Modells hinkt der Realitaet um viele Monate hinterher. Eine Regel, die 2023 korrekt war, ist jetzt vielleicht nicht mehr korrekt. Das Modell weiss nicht, welche seiner Fakten veraltet sind.
Was tatsaechlich funktioniert#
Ein paar Dinge, die ich jetzt tue, bevor ich irgendeinen KI-Output zu Rechts- oder Steuerfragen vertraue:
-
Ich nutze Perplexity zuerst, weil die Zitat-Disziplin Verifizierbarkeit erzwingt. Wenn Perplexity keine Quelle fuer eine Behauptung findet, ist das ein starkes Signal.
-
Ich stelle dieselbe Frage an zwei Modelle und vergleiche. Wenn sie uebereinstimmen, verifiziere ich eine Quelle. Wenn sie sich widersprechen, verifiziere ich beide.
-
Ich pruefe spezifische Zahlen, Daten und Paragraphen-Referenzen gegen die Primaerquelle (gesetze-im-internet.de fuer deutsches Recht, das Bundessteuerblatt fuer Steuerentscheidungen). Ich vertraue keinem KI-gelieferten Zitat, ohne durchzuklicken.
-
Fuer alles, wo ich tatsaechlich handeln wuerde, spreche ich mit einem echten Anwalt oder Steuerberater. KI ist gut zum Orientieren. Sie ist schlecht zum Entscheiden.
Die haertere Frage#
Das Interessante ist nicht, dass KI halluziniert. Es ist, dass sie in Bereichen weniger halluziniert, wo die meisten Menschen es nicht erkennen koennen. Gruender kennen ihr eigenes Produkt. Entwickler kennen ihren Code. Anwaelte kennen Recht. In jedem Fall ist die KI am nuetzlichsten und am gefaehrlichsten in den anderen zwei Bereichen.
Der Failure-Mode ist asymmetrisch. Wenn KI Ihnen ausserhalb Ihrer Expertise hilft, koennen Sie nicht erkennen, ob sie hilft oder in die Irre fuehrt. Die einzige Verteidigung ist, KI als Quelle zu behandeln, die zu verifizieren ist, nie als Autoritaet, der zu vertrauen ist.
Das ist keine aufregende Schlussfolgerung und es limitiert den Wert von KI fuer recherche-intensive Wissensarbeit. Aber zehn schlechte Antworten von vierzig, in einem Bereich mit hohem Einsatz, ist ein starkes genug Signal, dass ich nicht so tun werde, als waere das anders.
Mehr dazu, wie die Modelle sich bei verschiedenen Arten von Genauigkeit vergleichen, im ChatGPT vs Claude-Vergleich. Aber keiner dieser Unterschiede zaehlt, wenn Sie Output, der wichtig ist, nicht verifizieren.
