Eine neue Produktkategorie, schnell sortiert#
Vor zwei Jahren war "Deep Research" keine Kategorie. Du fragtest eine KI eine Frage, bekamst eine Antwort, vielleicht mit Zitaten. Das war's.
In sechzehn Monaten haben alle vier großen KI-Produkte dedizierte Deep-Research-Modi gelauncht. Der Produkt-Pitch ist über alle ähnlich: Stell eine große Frage, die KI verschwindet fünf bis zwanzig Minuten, sie gibt einen strukturierten Bericht mit Zitaten zurück. Die Implementierungen unterscheiden sich mehr, als das Marketing suggeriert, und es gibt jetzt unabhängige Benchmarks, die sie rigoroser vergleichen als jeder einzelne Hands-on-Test.
Dieser Post deckt die verifizierten Launches, die zugrundeliegenden Fähigkeitsprofile und was die unabhängigen Benchmarks tatsächlich zeigen.
Die vier Produkte, mit verifizierten Launch-Daten#
Gemini Deep Research launchte zuerst, im Dezember 2024 (gemini.google Deep Research Overview). Initial mit Gemini 1.5 Pro, später auf 2.0 Flash Thinking aktualisiert, jetzt auf Gemini 3 Pro. Expandiert zu Free-Usern im März 2025.
ChatGPT Deep Research launchte am 3. Februar 2025 für Pro-Tier-Nutzer zuerst. Ursprünglich mit o3 angetrieben. Stand Februar 2026 läuft es auf GPT-5.2. OpenAI berichtet 26,6% auf Humanity's Last Exam.
Perplexity Deep Research launchte am 15. Februar 2025. Freemium-Modell — limitierte kostenlose Nutzung pro Tag, unlimitiert für Pro-Abonnenten. Erzielte 21,1% auf Humanity's Last Exam laut Perplexitys Launch-Post.
Claude Research launchte im April 2025 für Max-, Team- und Enterprise-Tiers und expandierte kurz darauf zu Pro. Die Support-Dokumentation deckt aktuelle Fähigkeiten ab. Claude Research wurde am 2. Mai 2025 aktualisiert, um 45-minütige autonome Research-Sessions und Google-Workspace-Integration zu unterstützen.
Echte Benchmarks, keine fabrizierten Tests#
Mehrere unabhängige Benchmarks vergleichen diese Produkte anhand verifizierbarer Kriterien:
DeepResearch Bench, vom Ayanami0730-Team (deepresearch-bench.github.io), besteht aus 100 PhD-Level-Research-Aufgaben, evaluiert unter zwei Frameworks: RACE (zur Bewertung der Qualität des Research-Prozesses) und FACT (zur Bewertung faktischer Genauigkeit). Das öffentliche Leaderboard wird aktiv aktualisiert.
GAIA (Hugging-Face-Leaderboard) hat 450+ Realwelt-Agenten-Aufgaben und ist insgesamt der meistzitierte Agenten-Benchmark. Deep-Research-Produkte konkurrieren auf dem Teil der GAIA-Aufgaben, die Research-artige Problemlösung verlangen.
HAL (Princeton Holistic Agent Leaderboard) (hal.cs.princeton.edu) fokussiert auf Zuverlässigkeits- und Sicherheits-Metriken, was für Deep-Research-Nutzung zählt, wo kleine Fehler in Zitaten oder Reasoning zu größeren Problemen kumulieren. Das Leaderboard war Stand April 2026 für manche neue Modelle pausiert, bleibt aber der rigoroseste sicherheitsfokussierte Benchmark.
Humanity's Last Exam wird von allen vier Anbietern in ihrem eigenen Benchmarking zitiert und ist zu einem De-facto-Vergleichspunkt geworden.
Wofür jedes Produkt optimiert ist#
Quer über Benchmarks und Nutzer-Feedback gelesen, hat jedes Produkt einen erkennbaren Design-Fokus.
ChatGPT Deep Research ist auf Tiefe und Vollständigkeit optimiert. Es wirft ein breites Netz, liest viele Quellen, synthetisiert mit einem Bias, die volle Frage abzudecken. Der Humanity's-Last-Exam-Score von 26,6% ist unter den höchsten. Der Nachteil: Lange Runs weichen manchmal in Material ab, das nicht nötig war. Wenn die Frage ehrlich unbekannt für dich ist, ist diese Tiefe wertvoll.
Claude Research ist auf Lesbarkeit und strukturiertes Reasoning optimiert. Der Output ist wie ein Analystenbericht organisiert, mit sichtbaren Reasoning-Ketten und gut argumentierten Claims. Quellen werden sparsamer zitiert, aber die Prosa ist meist besser als bei den Alternativen. Für Ergebnisse, die von einem menschlichen Entscheider gelesen werden, zählt das.
Perplexity Deep Research ist auf Geschwindigkeit und Aktualität optimiert. Es ist das schnellste der vier und integriert Live-Web-Daten stark, was es zur besten Wahl für Fragen zu aktuellen Ereignissen oder sich schnell bewegenden Themen macht. Tiefe wird bewusst gegen Zeit getauscht.
Gemini Deep Research profitiert von Googles Datenökosystem. Bei Fragen, die Produkte, Shopping, lokale Dienste oder Google-Scholar-indexierten akademischen Content berühren, zeigt sich der Integrationsvorteil. Bei purem Reasoning oder technischem Content hinkt es den anderen drei hinterher.
Gemeinsame Ausfallmuster (dokumentiert, nicht erfunden)#
Mehrere Ausfallmuster werden konsistent über alle vier Produkte berichtet:
Fabrizierte Zitate. Alle vier Produkte produzieren gelegentlich Zitate zu Papers, Seiten oder Zitaten, die nicht existieren. Das ist der wichtigste Ausfallmodus für alle, die Deep-Research-Output in Kontexten nutzen, in denen Genauigkeit zählt. Das DeepResearch-Bench-FACT-Framework misst das spezifisch, und keines der vier Produkte erzielt über 85% bei faktischer Genauigkeit auch auf ihren besten Aufgaben.
Überselbstbewusste Synthese bei umstrittenen Claims. Deep-Research-Modi neigen dazu, umstrittene Claims als geklärt zu präsentieren, wenn die tatsächliche Literatur im Streit ist. Die Tools mitteln über ihre Quellen und berichten einen scheinbaren Konsens, der im Feld nicht existiert.
Blinde Flecken durch Trainingsdaten. Themen, die in englischsprachigen westlichen Quellen gut dokumentiert sind, bekommen bessere Behandlung als Themen in nicht-englischen oder nicht-westlichen Quellen. Das zeigt sich vorhersehbar bei Fragen zu nicht-englischer Presse, regionalen Regulierungen und kleineren akademischen Communities.
Schlechte Handhabung von Datentabellen. Fragen, deren Antwort fundamental eine Tabelle ist, werden stattdessen erzählt. Nachfassen mit "gib mir das als Markdown-Tabelle" funktioniert meist.
Praktische Anleitung#
Eine Entscheidungs-Heuristik basierend auf den Fähigkeitsprofilen:
- Aktuelles Ereignis oder sich schnell änderndes Thema recherchieren: Perplexity.
- Technisches, wissenschaftliches oder obskures Thema recherchieren: ChatGPT.
- Analytischen Bericht für einen menschlichen Leser produzieren: Claude.
- Konsumprodukte, lokale Dienste oder Shopping-nahe Themen recherchieren: Gemini.
Für High-Stakes-Research ist der dauerhaftere Ansatz, die Frage durch zwei davon zu jagen und die Outputs zu vergleichen. Die Stellen, wo sie übereinstimmen, sind wahrscheinlich verlässlich. Die Stellen, wo sie divergieren, sind, wo du die Quellen selbst lesen musst. Das verbraucht mehr Compute und Zeit, verbessert aber die Verlässlichkeit substanziell.
Verifizier immer tragende Zitate. Klick durch. Prüf, dass die Seite existiert, prüf, dass das Zitat real ist, prüf, dass es den gemachten Claim stützt. Alle vier Produkte produzieren genug fabrizierte Zitate, dass das für alle, die den Output veröffentlichen oder Entscheidungen darauf treffen, nicht optional ist.
Wie ich die in der Praxis nutze#
Für die Art Arbeit, die ich mache — Kategorie-Guides, Tool-Vergleiche, Blog-Posts, die faktische Genauigkeit brauchen — mein aktueller Workflow:
- Start mit Perplexity für einen schnellen Überblick des Fragenraums. Es gibt mir die offensichtlichen Antworten und ein Starter-Set Quellen, meist in unter sechs Minuten.
- Für Themen mit echter Tiefe lauf dieselbe Frage durch ChatGPT Deep Research für Breite und Claude Research für Struktur. Vergleich die Outputs; die Überlappung ist sicherer als eines allein.
- Verifizier jeden spezifischen faktischen Claim, den ich zitieren werde, gegen Primärquellen. Nimm an, dass ein kleiner Prozentsatz der Zitate in jedem Deep-Research-Output fabriziert ist. Verwirf die; zitier sie nicht.
- Lass niemals den Deep-Research-Output den finalen Text sein. Er ist Rohmaterial. Das Schreiben und das Urteil sind mein Job.
Dieser Workflow dauert typisch vierzig bis neunzig Minuten für ein Thema, das 2022 einen halben Tag manueller Suche gebraucht hätte. Der Produktivitätsgewinn ist real, und die Zitat-Verifikations-Steuer ist kleiner als der Produktivitätsgewinn, aber nur wenn du die Verifikation tatsächlich machst.
Was kommt#
Deep Research ist klar noch früh. Die vier Produkte werden sich weiter mehr divergieren als konvergieren, während jeder Anbieter auf andere Use Cases optimiert. Unabhängige Benchmarks werden rigoroser und werden wahrscheinlich anfangen, die Produkte klarer auf messbaren Kriterien als auf Marketing-Claims zu trennen.
Zwei Dinge, die ich beobachte:
- Zitat-Genauigkeits-Verbesserungen. Die DeepResearch-Bench-FACT-Scores sind die nützlichste einzelne Metrik über die Zeit. Wenn sie sich im nächsten Jahr substanziell bewegen, fällt die Verifikations-Last auf Nutzer entsprechend.
- Integration mit proprietären Daten. Der größte Unlock für Enterprise-Deep-Research sind nicht bessere Modelle — es ist die Fähigkeit, Deep Research über eigene Dokumente zu laufen, nicht nur das offene Web. Alle vier Anbieter arbeiten daran; wer die beste Integration zuerst shippt, erfasst den Enterprise-Deep-Research-Markt.
Weiterlesen#
- Reasoning-Modelle: Wann lohnen sie sich? für die zugrundeliegende Frage, wann rechenintensive Modi zahlen.
- KI-Halluzinationen in der Rechtsrecherche warum Zitat-Verifikation essenziell bleibt.
- KI-Detection-Tools sind kaputt warum du KI-Output nicht als Black Box behandeln solltest.
Quellen#
- Gemini Deep Research Overview: https://gemini.google/overview/deep-research/
- ChatGPT Deep Research Launch: https://openai.com/index/introducing-deep-research/
- Perplexity Deep Research Launch: https://www.perplexity.ai/hub/blog/introducing-perplexity-deep-research
- Claude Research Dokumentation: https://support.claude.com/en/articles/11088861-using-research-on-claude
- DeepResearch Bench: https://deepresearch-bench.github.io/
- GAIA Leaderboard: https://huggingface.co/spaces/gaia-benchmark/leaderboard
- Princeton HAL Leaderboard: https://hal.cs.princeton.edu/
