Der Pitch war gut. Das Produkt war es nicht.#
2023 erreichte AutoGPT in einer Woche eine Million GitHub-Stars. Der Pitch war ehrlich aufregend: Gib einer KI ein Ziel, sie zerlegt das Ziel in Teilaufgaben, führt sie aus, reflektiert über die Ergebnisse, korrigiert sich selbst. Enter drücken, weggehen, später zu einem fertigen Projekt zurückkehren.
Drei Jahre später wird über diese Version von "KI-Agenten" nicht mehr gesprochen. Nicht weil die Leute, die daran arbeiten, aufgegeben haben, sondern weil jedes ernsthafte Team, das versucht hat, sie in Produktion zu bringen, auf dieselben drei Probleme gestoßen ist. Gleichzeitig ging eine ganz andere Art von Agent, der enge und meinungsstarke, von der Kuriosität zum Standardwerkzeug über.
Dieser Post handelt von der Lücke zwischen beiden. Was der Traum vom Universal-Agenten tatsächlich kostet, wenn man ihn produktiv betreiben will. Was der Ansatz enger Agenten richtig macht. Und worauf du 2026 bauen solltest.
Die drei Gründe, warum Universal-Agenten es nicht geschafft haben#
Ich habe das letzte Jahr damit verbracht, mit Engineering-Teams zu reden, die autonome, zielgetriebene Agenten in ihren Produkt-Stack bringen wollten. Die Ausfallmuster sind bemerkenswert konsistent.
Zuverlässigkeit kumuliert in die falsche Richtung. Wenn jeder Schritt in einer Kette 95 Prozent zuverlässig ist, hat eine Zehn-Schritt-Kette etwa 60 Prozent. Das klingt überlebbar, bis du merkst, dass reale Aufgaben zwanzig bis dreißig Schritte brauchen, und dann liegst du unter 30 Prozent Erfolgsquote. Teams haben versucht, das mit Retries und Reflection-Loops zu beheben, was ein bisschen hilft, aber jeder Retry verdoppelt Kosten und Latenz.
Kosten skalieren mit nichts Nützlichem. Ein Agent, der seine eigene Arbeit planen kann, wird, wenn du ihm Spielraum gibst, teure Arbeit planen. Ich habe gesehen, wie Agenten 4 Dollar für eine Aufgabe ausgegeben haben, die ein Mensch auf 10 Cent angesetzt hätte. Das Modell hat keine Intuition dafür, worüber es lange nachdenken sollte und worüber nicht, also denkt es über alles lange nach. Bring das mit tausend Usern in Produktion und deine Infrastruktur-Rechnung erzählt dir die Geschichte vom Unterschied zwischen Demos und Realität.
Debugging ist nicht debugbar. Wenn ein klassisches Programm fehlschlägt, liest du den Stack Trace und findest den Bug. Wenn ein Agent fehlschlägt, liest du das Transkript einer Unterhaltung, die das Modell mit sich selbst über sechs Tool-Aufrufe hinweg geführt hat, und irgendwo darin ist eine feine Fehlinterpretation, die sich durch vier Reflection-Schritte in ein falsches Ergebnis fortpflanzt. Es gibt keinen Unit-Test für "das Modell ist auf Schritt sieben müde geworden". Teams haben Monate Engineering in Observability gesteckt, die das zugrundeliegende Problem nicht gelöst hat.
Die Kombination der drei machte die Produkt-Mathematik schwer. Du konntest eine Demo bauen, die zu 40 Prozent funktioniert und magisch aussieht, aber du konntest nichts ausliefern, wofür ein Kunde bezahlen würde.
Was an dessen Stelle getreten ist#
Die Agenten, die 2025 und 2026 tatsächlich in Produktion gingen, haben diese Probleme nicht gelöst. Sie haben sie umschifft.
Der Trick ist, den Scope des Agenten auf eine Domäne zu begrenzen, in der die Fehlerarten erholbar sind. Claude Code ist das klarste Beispiel. Es ist ein Agent im technischen Sinn, weil es plant, Tools aufruft, Schleifen dreht. Aber es plant nicht dein Geschäft. Es plant Änderungen an deiner Codebase. Und der Grund, warum es funktioniert, ist, dass jeder Schritt ein Artefakt produziert, das ein Mensch lesen und ablehnen kann, bevor der nächste Schritt läuft.
Dasselbe Muster zeigt sich überall dort, wo die Agenten-Idee tatsächlich funktioniert hat:
- Cursor und die ganze Copilot-Schiene. Enger Scope, sofortiges Feedback, Mensch im Loop.
- Lindy, Relevance AI und die zweite Welle von Workflow-Tools. Agenten, die innerhalb eines Templates laufen, nicht welche, die ihr eigenes Template entwerfen.
- Deep-Research-Modi in ChatGPT, Claude, Perplexity. Der Agent betreibt Recherche, nicht Ausführung in der Welt. Das Ergebnis ist ein Dokument, das ein Mensch liest. Schaden durch einen schlechten Schritt: null.
- Computer-Use-Agenten wie die von Anthropic. Beeindruckend, aber in abgeschotteten Flows eingesetzt (Formular-Ausfüllen, QA-Automatisierung), in denen Fehlerkosten begrenzt sind.
Jeder davon ist das Gegenteil des AutoGPT-Pitches. Sie sind domänenspezifisch, menschlich überwacht, artefaktproduzierend und eng gefasst. Keiner versucht, universell zu sein.
Warum eng funktionierte, wo universal scheiterte#
Die Zuverlässigkeits-Mathematik ändert sich, wenn der Mensch im Loop ist. Ein Zehn-Schritt-Agent mit 95 Prozent Zuverlässigkeit pro Schritt fällt 40 Prozent der Zeit end-to-end aus. Ein Zehn-Schritt-Agent, bei dem der Mensch jeden Schritt prüft, bevor der nächste läuft, fällt auf dem Schritt aus, den der Mensch abfängt, also einem Bug, den man melden kann, statt eines stillen Fehlers, den man nicht findet.
Die Kosten-Mathematik ändert sich auch. Ein enger Agent, der in einer definierten Domäne läuft, plant keine Überraschungsarbeit. Claude Code wandert nicht ab, um deine Test-Suite neu zu schreiben, nur weil es dachte, das wäre gut. Es macht, was du sagst, hält an, wartet. Kosten werden eine Funktion der Aufgabe, nicht der Modell-Vorstellungskraft.
Und das Debugging-Problem verdampft. Wenn ein enger Agent einen Fehler macht, steckt der Fehler in einem Artefakt, das du lesen kannst. Eine falsche Zeile Code. Eine falsche Query. Eine falsche Zusammenfassung. Du musst keine Unterhaltung rekonstruieren. Du musst das Ergebnis lesen und entscheiden, ob es richtig ist.
Das Muster ist nicht "KI ist besser geworden, jetzt funktionieren Agenten". Es ist "wir haben die Formen von Agenten gefunden, die nicht die Ausfallmuster haben, die den Universal-Fall gekillt haben". Diese Formen sind spezifisch, und auf der Demo-Bühne wirken sie weniger beeindruckend, was wahrscheinlich der Grund ist, warum sie weniger Aufmerksamkeit bekamen.
Was das für 2026 bedeutet#
Wenn du überlegst, ein Agent-Produkt zu bauen oder zu kaufen, gibt es ein paar praktische Konsequenzen.
Bevorzuge Tools, die Artefakte produzieren. Der Agent sollte etwas bauen, das ein Mensch sehen kann, nicht Dinge in externen Systemen ausführen, die schwer rückgängig zu machen sind. Code, Text, Reports, Pläne. Nicht "Flüge buchen" und "E-Mails an deine Kunden senden".
Behandle Autonomie als Regler, nicht als Schalter. Die besten Agent-Produkte lassen dich einstellen, wie viel der Agent macht, bevor er zur Prüfung anhält. Starte fast voll überwacht, bewege dich in Richtung mehr Autonomie nur, wenn du gesehen hast, dass er denselben Aufgabentyp immer wieder richtig macht. Die meisten Teams, die direkt auf hohe Autonomie sprangen, haben es bereut.
Sei misstrauisch bei jedem Pitch, der mit 'universal' anfängt. Universal-Agenten sind immer noch ein offenes Forschungsproblem. Sie sind keine Produktkategorie. Wenn dir ein Anbieter einen Universal-Agenten verkauft, hat er einen Wrapper um ein Frontier-Modell mit viel Prompt-Engineering, und er wird in deiner spezifischen Domäne genauso brechen wie in den Domänen aller anderen.
Schau dir an, welche Tools das eigene Team des Anbieters benutzt. Wenn sie Agenten bauen, ihre Engineers aber für ihre eigene Arbeit Claude Code oder Cursor nutzen, sagt dir das, welchem Muster sie wirklich vertrauen. Das ist ein Signal.
Der Teil, der mich unruhig macht#
Ich muss ehrlich zu einer Sache sein. Das stille Ende der Universal-Agenten ist kein Dauerurteil. Es ist eine Momentaufnahme von 2026, gegeben die aktuellen Modelle. Claude 4.7, GPT-5, Gemini 3 Ultra, die sind alle besser im Long-Horizon-Reasoning als die Modelle, auf denen AutoGPT lief. Manche Ausfallmuster, die die 2023er Version dieser Idee killten, sind jetzt weniger schlimm.
Es gibt Teams, die leise an der nächsten Version davon arbeiten, und ich wäre nicht überrascht, wenn in den nächsten zwölf bis achtzehn Monaten etwas durchbricht. Das kumulierende Zuverlässigkeitsproblem ist teilweise ein Modell-Problem, und Modelle werden immer noch besser.
Aber bis das passiert, ist die Produktionsgeschichte klar. Enge, überwachte, artefaktproduzierende Agenten funktionieren. Universelle, autonome, zielgetriebene Agenten nicht, nicht in einer Form, die jemand zuverlässig ausliefern kann. Baue für die Welt, in der du lebst, und achte auf das Signal, dass die Frontier-Labs selbst enge Agenten für ihre eigene Arbeit nutzen.
Vor zwei Jahren hätte das nach Niederlage geklungen. Tatsächlich ist es Fortschritt. Wir wissen jetzt mehr darüber, wofür Agenten gut sind, als vorher, und das meiste Wissen kam von den Teams, die versucht haben, die große Version zu bauen und herausfanden, warum sie noch nicht funktioniert. Das ist ein nützliches Ergebnis, auch wenn es nicht das ist, was die frühen Posts versprochen haben.
Weiterlesen#
- Unser Guide zu Claude Code als Beispiel für enges Agenten-Design.
- Der RAG vs Fine-Tuning vs Prompting Post für die angrenzende Frage, wie man das Modell darunter anpasst.
- Der Context Window vs Memory Post dazu, warum Long-Horizon-Reasoning immer noch auf Weisen bricht, die zählen.
Die Agenten, die 2026 funktionieren, sind nicht die aus der Demo-Reel. Es sind die, die still in Tools laufen, die du schon benutzt, und meistens merkst du sie nicht einmal, weil sie eine Zeile Code oder eine Zusammenfassung produzieren und dann anhalten. Das ist das Muster, auf dem man aufbauen sollte.
