Das stille Ende der 'KI-Agenten'

Wo der Pitch begann#

Im März 2023 veröffentlichte Toran Bruce Richards AutoGPT auf GitHub. Die Prämisse war fesselnd: verdrahte GPT-4 in eine Planungs-Schleife, lass es Ziele in Teilaufgaben zerlegen, gib ihm Tools, und du bekommst einen autonomen Arbeiter. Das Projekt schaffte es auf die Hacker-News-Titelseite, dann auf Top-GitHub-Trending, und sitzt jetzt bei rund 183.000 Stars (Significant-Gravitas/AutoGPT).

Für ein paar Wochen im Frühling 2023 sah "autonomer KI-Agent" aus wie die Form, die die nächste Produktwelle annehmen würde. Gib einer KI ein Ziel, komm zu einem fertigen Ergebnis zurück. Die Presse lief damit. Venture Capital jagte es.

Drei Jahre später haben die Firmen und Projekte, die auf die starke Version dieses Pitches setzten, meist pivotiert oder sind still geworden. Die Firmen und Projekte, die die enge Version bauten, sind zu einigen der umsatzstärksten Software-Geschäfte der Geschichte geworden. Die Lücke lohnt, genau angeschaut zu werden, weil die Evidenz klarer ist als das Narrativ.

Was aus der 2023er-Klasse wurde#

Eine kurze Bestandsaufnahme der Agenten-Projekte der ersten Welle.

AutoGPT pivotierte zu AutoGPT Platform, einem Low-Code-Workflow-Builder mit Agent Builder, Forge und agbenchmark (aktuelles Repo). Die ursprüngliche autonome-Schleife-Architektur wurde durch konfigurierbare Agenten innerhalb definierter Workflows ersetzt — im Grunde das Gegenteil des ursprünglichen Pitches. Der Pivot war ein Eingeständnis, dass der generelle Fall in Produktionsgröße nicht funktionierte.

BabyAGI waren ein paar hundert Zeilen Python, die GPT-4 an eine Task-Queue-Schleife verdrahteten, veröffentlicht von Yohei Nakajima. Das Original-Repo ist jetzt archiviert als babyagi_archive. Nakajima shippte BabyAGI 2 (functionz) im September 2024, aber das Projekt ist effektiv Forschungs-Skala, keine Produktions-Plattform.

AgentGPT / reworkd pivotierten hart. Laut TechCrunch im Juli 2024 gab reworkd das Universal-Agent-Produkt auf, weil AgentGPT sie rund 2.000 Dollar pro Tag an API-Calls kostete, ohne zahlende Kunden zu finden. Sie fokussierten sich neu auf KI-gestütztes strukturiertes Web-Scraping, sammelten 2,75 Mio. Dollar von Paul Graham, Nat Friedman/Daniel Gross's AI Grant, SV Angel und General Catalyst, und verkaufen jetzt ein domänenspezifisches Produkt.

Devin von Cognition war der ambitionierteste 2024er-Versuch eines Universal-Agent-Produkts. Er startete im März 2024 mit einer flashy Upwork-Demo und dem Framing "der erste KI-Software-Engineer". Die Demo wurde öffentlich widerlegt — unabhängige Analyse fand, dass die Bugs, die Devin in der Demo "fixte", keine echten Bugs im Repository waren. Cognition ruderte bei den stärksten Behauptungen zurück und mäßigte die Botschaften. Bis Anfang 2026 war Devin zu einem begrenzteren Produkt geworden, Cognition hatte Windsurf übernommen, und der Firmenumsatz wurde über 73 Mio. Dollar ARR berichtet. Das ist ein ernstes Geschäft, aber es ist nicht, was der Original-Pitch versprach.

Das Muster über alle vier: Die Universal-Agent-Prämisse überlebte den Kontakt mit zahlenden Kunden nicht. Die Teams, die überlebten, pivotierten entweder zu einem engeren Produkt oder akzeptierten deutlich bescheidenere Behauptungen darüber, was ihr genereller Agent konnte.

Was die Benchmarks sagen#

Das ist nicht nur Anekdote. Der GAIA-Benchmark, eingeführt im Paper arXiv:2311.12983, misst Agenten-Performance an 466 Fragen über drei Schwierigkeitsgrade und testet Realwelt-Problemlösung mit Tool-Nutzung. Die Lücke zwischen Mensch und Frontier-Agent ist dokumentiert, nicht theoretisch.

Aktueller Stand auf dem Princeton HAL GAIA Leaderboard: Claude Sonnet 4.5 führt bei rund 74,6%, Anthropic-Modelle belegen die Top-Sechs. Menschen sitzen bei rund 92%. Das ist die Best-Case-Performance auf einem statischen Benchmark.

Auf Gaia2, einer härteren asynchronen Variante, eingeführt 2025 (OpenReview), liegt der aktuelle Top-Score (GPT-5 bei hohem Reasoning) bei rund 42% pass@1. Frontier-Agenten scheitern bei zeitsensitiven Aufgaben und bei Koordination über lange Zeiträume.

Der nützliche Weg, diese Zahlen zu lesen: auf statischen, gut definierten Agenten-Benchmarks hat sich die Frontier ehrlich von 15% (GPT-4 mit Plugins, 2023) auf 75% (Claude Sonnet 4.5, 2026) bewegt. Auf härteren Benchmarks, die Realwelt-Chaos einfangen, fällt die Performance um die Hälfte. Und die Mensch-Baseline bleibt über 90%, was ist, wo die meisten Produktionsanwendungen sein müssen.

Das ist Fortschritt, spürbarer Fortschritt, aber es ist nicht "die Agenten können deinen Job machen" Fortschritt.

Was still riesig wurde#

Während die Universal-Agent-Projekte pivotierten, bauten enge Agent-Produkte echte Geschäfte.

Cursor überschritt Anfang 2026 2 Mrd. Dollar ARR (TechCrunch, März 2026), mit über einer Million täglich aktiven Nutzern und rund 360.000 zahlenden Kunden. Cursor ist technisch ein Agent — es plant, ruft Tools auf, dreht Schleifen — aber es ist auf das Editieren einer Codebase mit einem Menschen, der jede Änderung reviewt, gescoped.

Claude Code erreichte rund 2,5 Mrd. Dollar Run-Rate bis Anfang 2026, traf 1 Mrd. ARR sechs Monate nach Launch, laut Branchen-Berichten einschließlich uncoveralpha.com. Gleiches Muster: enger Scope, Artefakt-Output, menschliche Aufsicht.

Replit wuchs von rund 10 Mio. ARR Ende 2024 auf 240 Mio. über 2025, mit einer 9-Mrd.-Dollar-Bewertung 2026 berichtet. Replit Agent ist der Wachstums-Motor. Wieder: enger Scope, begrenzt durch das, was Replit deployen kann.

GitHub Copilot berichtet rund 20 Millionen Nutzer und etwa 800 Mio. Dollar ARR, mit seinen Coding-Agent-Features, die neben dem Basis-Produkt wachsen.

Vier Geschäfte in derselben Form: begrenzte Domäne, Artefakt-produzierend, Mensch in der Review-Schleife. Zusammen etwa 5 Mrd. Dollar in annualisiertem Umsatz Anfang 2026. Keines vermarktet sich mit dem AutoGPT-Pitch. Alle tun, was AutoGPT zu tun versuchte, nur mit der Ambition auf das skaliert, was tatsächlich funktioniert.

Computer Use als Übergangsfall#

Anthropics Computer Use ist ein interessanter Testfall. Er startete im Oktober 2024 als Beta-Feature, das Claude Aktionen in einer Sandbox-VM ausführen ließ — klicken, tippen, navigieren. Der Consumer-Rollout passierte im März und April 2026 und expandierte auf Mac und Windows in der Claude-App für Pro- und Max-Abonnenten.

Es ist beeindruckend, und es zeigt klar die Richtung, in die sich die Dinge bewegen. Es ist auch in der Praxis ein Research Preview mit dokumentierten Limitierungen. Es ist langsam. Es ist in Browsing-Kontexten verwundbar für Prompt Injection. Es verlangt Nutzer-Aufsicht. Anthropics eigene Dokumentation ist explizit über die Notwendigkeit, das Modell an Checkpoints zu stoppen und zu verifizieren. Das ist nicht das autonome-Arbeiter-Produkt, das der 2023er-Pitch versprach, und Anthropic ist ungewöhnlich offen über die Lücke zwischen dem, was es tut, und dem, was ein voll genereller Agent bräuchte.

Was funktioniert und warum#

Über die Produktions-Sieger (Cursor, Claude Code, Replit Agent, Copilot, und die engen Workflow-Tools wie Lindy und Relevance AI) ein konsistentes Muster:

Begrenzte Domäne. Der Agent operiert in einem klar spezifizierten Bereich — Code in einem Repo, Aktionen in einem Workflow-Template, Schritte in einem Research-Dokument — statt in der offenen Welt.
Artefakt-Output. Jeder Schritt produziert etwas, das ein Mensch lesen und akzeptieren oder ablehnen kann, bevor der nächste Schritt läuft. Text. Code. Ein Änderungsvorschlag.
Menschlicher Review als Design-Annahme, kein Failure-Mode. Die Produkte sind auf der Prämisse gebaut, dass der Nutzer in der Schleife ist. Wenn der Nutzer weggeht, hält der Agent an.
Fehler sind erholbar. Weil Output Artefakt ist, nicht Aktion-in-der-Welt, ist ein Fehler ein schlechter Vorschlag, keine falsch gesendete Email oder falsch verbuchte Zahlung.

Die 2023er-Klasse versuchte, alle vier zu entkommen. Die Resultate sind in den Pivots und den Benchmark-Lücken dokumentiert.

Wohin das geht#

Computer Use, sowohl Anthropics als auch die Äquivalente, an denen OpenAI und Google arbeiten, ist, wo das Experimentieren jetzt ist. Es ist ehrlich über den Preview-Status, die Limits sind dokumentiert, und die Failure Modes werden studiert statt übertüncht. Ob es eine echte Produktkategorie wird, hängt davon ab, ob die Prompt-Injection- und Zuverlässigkeits-Probleme auf einem Level gelöst werden, das Aktionen-mit-Konsequenzen trägt.

Die Gaia2-Zahlen suggerieren, dass das Problem noch hart ist. Frontier-Reasoning-Modelle bei 42% auf einem realistischen Benchmark ist kein produktionsreifer Score. Es ist eine Richtung.

Bis dahin ist der praktische Rat für jeden, der 2026 agenten-förmige Produkte baut oder kauft, unverändert gegenüber dem, was die Evidenz zeigt:

Bevorzuge engen Scope. Wenn ein Produkt-Pitch mit "Allzweck" beginnt, sei skeptisch.
Bevorzuge Artefakt-Output. Tools, die etwas produzieren, das du lesen und akzeptieren kannst, sind sicherer als Tools, die in der Welt agieren.
Bevorzuge Beobachtbarkeit. Du solltest jeden Schritt sehen können, den der Agent tat, und verstehen warum.
Misstraue Marketing, das die Benchmark-Lücke ignoriert. Die besten GAIA-Scores sind immer noch 20 Punkte unter Mensch. Echte Produktion ist ein härterer Benchmark als GAIA.

Die Revolution kam. Sie kam nur in anderer Form, als die Schlagzeilen versprachen.

Weiterlesen#

Vibe Coding ist eine Lüge für verwandte Daten zu KI-Coding-Produktivität.
MCP ist wichtiger, als du denkst für die Infrastruktur-Verschiebung, die die nächste Welle ermöglicht.
Cursor zu Claude Code und zurück für den Head-to-Head der zwei gewinnenden agent-förmigen Coding-Produkte.

Quellen#

AutoGPT Repo: https://github.com/Significant-Gravitas/AutoGPT
BabyAGI Archive: https://github.com/yoheinakajima/babyagi_archive
BabyAGI 2 (functionz): https://github.com/yoheinakajima/babyagi
Reworkd-Pivot-Coverage, TechCrunch Juli 2024: https://techcrunch.com/2024/07/24/reworkd-paul-graham-nat-friedman-daniel-gross-scrape-ai-agents/
Pragmatic Engineer zu Devin-Walkback: https://newsletter.pragmaticengineer.com/p/the-pulse-90
Cognition-AI-Hintergrund: https://en.wikipedia.org/wiki/Cognition_AI
GAIA-Paper: https://arxiv.org/abs/2311.12983
Princeton HAL GAIA Leaderboard: https://hal.cs.princeton.edu/gaia
Gaia2 OpenReview: https://openreview.net/forum?id=9gw03JpKK4
Cursor 2 Mrd. ARR, TechCrunch: https://techcrunch.com/2026/03/02/cursor-has-reportedly-surpassed-2b-in-annualized-revenue/
Claude-Code-Wachstums-Coverage: https://www.uncoveralpha.com/p/anthropics-claude-code-is-having
Replit-Bewertungs-Breakdown: https://www.buildmvpfast.com/blog/replit-9b-valuation-agentic-coding-vibe-coding-2026

Roland Hentschel

AI & Web Technology Expert

Web developer and AI enthusiast helping businesses navigate the rapidly evolving landscape of AI tools. Testing and comparing tools so you don't have to.

Das stille Ende der 'KI-Agenten'

Wo der Pitch begann#

Was aus der 2023er-Klasse wurde#

Was die Benchmarks sagen#

Was still riesig wurde#

Computer Use als Übergangsfall#

Was funktioniert und warum#

Wohin das geht#

Weiterlesen#

Quellen#

Roland Hentschel

Tools aus diesem Beitrag

Cursor Guide 2026: Der AI-First Editor, der meinen Workflow veraendert hat

GitHub Copilot Guide 2026: Lohnt es sich fuer Entwickler?

Zapier Guide 2026

Weitere Beiträge aus dem Blog

Lohnt sich Lovable für dein MVP 2026?

KI-Agenten und MCP werden Mainstream

Open-Source-KI 2026: Lohnt sich lokal wirklich