Skip to main content
AI Tool Radar
Practical Guides

Reasoning-Modelle sind langsamer, teurer und manchmal schlechter. Wann lohnen sie sich wirklich?

o3 kostet jetzt 2/8 Dollar pro Million Tokens nach OpenAIs 80%-Preissenkung. Claude Sonnet 4.6 rechnet Thinking-Tokens als Output. DeepSeek R1 ist 0,55/2,19 Dollar. GPT-5 mit Thinking nutzt 50-80% weniger Output-Tokens als o3. Wann Reasoning-Mode wirklich zahlt.

7 min read2026-04-19Von Roland Hentschel
reasoning modelleo3extended thinkinggpt-5deepseek

Was sich 2025 änderte#

Ende 2024 veröffentlichte OpenAI o1. Über 2025 kamen o3, DeepSeek R1, Claudes Extended Thinking, Gemini Deep Think und mehr. Der Marketing-Rahmen war, dass diese Modelle "nachdenken, bevor sie antworten" und dramatisch bessere Ergebnisse bei harten Problemen liefern.

Der Rahmen ist teilweise wahr, und das Pricing hat sich substanziell verschoben. OpenAI senkte o3-Preis im Juni 2025 um 80%. Claudes Extended Thinking hat keine separate Preis-Stufe — Thinking-Tokens werden als Output-Tokens abgerechnet, mit einem Effort-Regler. GPT-5 mit Thinking nutzt 50-80% weniger Output-Tokens als o3 laut OpenAI-Ankündigung. Die Ökonomie von "wann Reasoning nutzen" ist nicht mehr, was sie Ende 2024 war.

Dieser Post handelt davon, wie man über Reasoning-Mode-Nutzung 2026 denkt, mit verifizierten Preis- und Benchmark-Daten.

Tatsächliches aktuelles Pricing#

Was die Frontier-Reasoning-Modelle tatsächlich kosten, Stand April 2026.

OpenAI o3: 2,00 Dollar pro Million Input-Tokens, 8,00 Dollar pro Million Output-Tokens. Das ist nach der 80%-Preissenkung, die OpenAI im Juni 2025 ankündigte. Eine Flex-Mode-Variante kostet 5/20 Dollar. Kontext-Fenster 200K.

OpenAI o4-mini: 1,10/4,40 Dollar pro Million Tokens. 200K Kontext. Die Standard-Option "Reasoning zu vernünftigem Preis".

Claude Sonnet 4.6: Basis-Pricing 3/15 Dollar pro Million Tokens. Extended Thinking fügt keine separate Gebühr hinzu — Thinking-Tokens werden zum selben Output-Satz abgerechnet, und Anthropic bietet einen effort-Parameter, um zu steuern, wie viel das Modell denkt. Caching reduziert Cache-Reads um rund 90%, und die Batch-API halbiert den Preis (Anthropic-Pricing-Docs).

Claude Opus 4.7: Teureres Basis-Pricing (rund 5x Sonnet in der typischen Konfiguration), mit demselben Extended-Thinking-Modell. Nur wert, wenn du eine Aufgabe hast, die spezifisch von Opus-Tier-Fähigkeit profitiert.

GPT-5 mit Thinking: Der OpenAI-Launch-Post behauptet 50-80% weniger Output-Tokens als o3 bei vergleichbaren Aufgaben, mit berichteten ~6x weniger Halluzinationen. GPT-5-Standard-Pricing (laut OpenAIs API-Pricing-Seite) ist niedriger als o3, was bedeutet, dass es oft günstiger pro richtige Antwort ist als o3, trotz neuerem, generell-stärkerem Modell.

Gemini Deep Think: Verfügbar über Google AI Ultra Subscription bei 124,99 Dollar/Monat für Consumer (USA, nur Englisch). Kein eigenständiges API-Produkt auf Retail-Skala. Gemini 3.1 Pro Deep Think wurde als "bald verfügbar" angekündigt (Google AI Docs).

DeepSeek R1: 0,55 Dollar pro Million Input, 2,19 Dollar pro Million Output auf der offiziellen DeepSeek-API. 64K Kontext. Veröffentlicht 20. Januar 2025 und 2026 noch verfügbar über DeepSeeks eigene API und via OpenRouter. Mit Abstand das günstigste Frontier-Reasoning-Modell, bei einer spürbaren Performance-Lücke zu GPT-5 und Claude bei harten Benchmarks.

Quer gelesen: Der Preis-pro-Reasoning-Token variiert um rund 15x zwischen DeepSeek R1 und Claude Opus. Das ist eine riesige Spanne, und sie bildet echte Fähigkeitsunterschiede ab.

Wo Reasoning-Modelle ihr Geld verdienen#

Es gibt eine recht saubere Gruppe Kategorien, wo die Mathematik aufgeht.

Formale Probleme mit verifizierbaren Antworten. Mathe, Competitive Programming, Logik-Rätsel, Physik. Bei AIME 2025 erzielte GPT-5 94,6% gegenüber o3 88,9%. Bei SWE-bench Verified erzielte GPT-5 74,9% gegenüber o3 52,8% (OpenAI GPT-5 Launch Post; Glean-Analyse). Wenn deine Aufgabe eine prüfbare Antwort hat, ist ein Reasoning-Modell die Extra-Kosten wert.

Long-Range-Code-Refactors mit engen Constraints. Multi-File-Refactors, die mehrere Invarianten gleichzeitig erfüllen müssen. Die Reasoning-Traces helfen dem Modell, seine Arbeit zu prüfen in Weisen, die für Korrektheit zählen. Claude Extended Thinking handhabt das besonders gut in meiner Erfahrung, zu einem spürbar niedrigeren Preis als o3.

Komplexe Query-Optimierung und Datenmodellierung. Schema-Design mit mehreren Trade-offs, Query-Optimierung mit Constraints. Multi-Constraint-Optimierung ist, wo Reasoning-Mode seinen Unterhalt verdient.

Recherche und Dokument-Synthese. Deep-Research-Modi in ChatGPT, Claude, Perplexity und Gemini sind alle Reasoning-lastig. Der Output ist strukturierte Analyse, und die extra Denkzeit korreliert mit Qualität.

Adversariale Korrektheit. Legal-Review, Security-Audit, Finanzberechnungen. Nicht weil das Basis-Modell das nicht könnte, sondern weil Reasoning-Mode Mehrdeutigkeiten und Corner Cases markiert, die das Basis-Modell überspringt.

Wo Reasoning-Modelle unterperformen oder Geld verschwenden#

Kreatives Schreiben. Reasoning-Modelle neigen zu vorsichtigerem, strukturierterem, lebloserem Output bei kreativen Aufgaben. Ich nutze Reasoning-Mode für keine Schreib-Aufgabe, bei der Stimme zählt.

Kundennahe Chats. Latenz zählt mehr als marginale Qualität bei Echtzeit-Konversation. Ein Reasoning-Modell mit 10-70 Sekunden Latenz ist eine schlechte Erfahrung für einen Support-Bot. Bleib bei schnelleren Basis-Modellen für synchronen Chat.

Einfache Lookups und Transformationen. "Übersetze das", "extrahier Daten", "fass zusammen". Das Basis-Modell sättigt diese. Reasoning-Mode verbrennt Tokens, um zur selben Antwort zu kommen.

Offenes Brainstorming. Gegenintuitiv konvergieren Reasoning-Modelle oft auf ein oder zwei Antworten und rechtfertigen sie ausführlich, statt breit zu erkunden. Basis-Modelle sind divergenter.

Domänen, in denen das Modell wahrscheinlich über sein eigenes Reasoning falsch liegt. Das ist der gefährliche Fall. Ein Reasoning-Modell kann eine selbstbewusst aussehende falsche Antwort mit ausführlicher Begründung produzieren, und die Begründung liest sich verlässlicher, als eine Basis-Modell-Vermutung wäre. Ich habe das bei Medizinfragen und bestimmten Finanzanalysen gesehen. Eine selbstbewusst-begründete falsche Antwort ist schwerer zu fangen als eine offensichtlich-geratene.

Die GPT-5-Drehung#

Der OpenAI-GPT-5-Launch änderte die Reasoning-Modell-Mathematik auf eine spezifische Weise, die die meisten noch nicht verinnerlicht haben.

GPT-5 mit Thinking wird nicht als "Reasoning-Aufschlag auf das Basis-Modell" bepreist. Es ist einfach GPT-5, und die Entscheidung ist, ob man Thinking für einen gegebenen Call anschaltet. Wenn Thinking an ist, nutzt GPT-5 50-80% weniger Output-Tokens als o3 bei vergleichbaren Aufgaben, was bedeutet, dass die Kosten pro richtige Antwort oft niedriger sind, nicht höher, als o3 zu nutzen. Bei AIME, bei SWE-bench, bei vielen Reasoning-lastigen Benchmarks dominiert GPT-5 o3.

Was das praktisch heißt: Für viele Aufgaben, bei denen du 2025 zu o3 gegriffen hättest, ist GPT-5 mit Thinking jetzt die bessere Wahl bei Qualität und Kosten. o3 hat noch ein größeres Kontext-Fenster (200K vs 128K für GPT-5 Standard-Output) für bestimmte Long-Context-Aufgaben, aber als Standard hat GPT-5-Thinking o3 für mich weitgehend ersetzt.

Dasselbe Prinzip gilt für Claude: Sonnet 4.6 mit Extended Thinking ist fast immer kosteneffizienter als Opus 4.7 für Aufgaben, die Sonnet gut kann, weil die Thinking-Token-Rechnung nicht springt, wenn du in Sonnet auf Extended Thinking wechselst.

Eine praktische Entscheidungsregel#

Für jede Aufgabe die schnelle Regel, die ich anwende:

Reasoning-Mode nutzen wenn:

  1. Die Antwort ist verifizierbar (Mathe, Code mit Tests, Legal-Claim-Check), und du kümmerst dich mehr um Korrektheit als Geschwindigkeit.
  2. Die Aufgabe hat mehr als zwei oder drei Reasoning-Schritte, die das Basis-Modell verpassen könnte.
  3. Die Kosten einer falschen Antwort sind substanziell höher als die extra 0,30-1,00 Dollar, die der Reasoning-Call kostet.

Reasoning-Mode weglassen wenn:

  1. Die Aufgabe ist kreativ oder stimmensensitiv.
  2. Latenz zählt (Kunden-Chat, synchrone Tool-Nutzung).
  3. Die Aufgabe ist einfach genug, dass das Basis-Modell sie schon zuverlässig richtig macht.
  4. Du brainstormst und willst diverse Outputs.

In der Praxis war die Verschiebung für mich im letzten Jahr: weniger reflexhafte Reasoning-Mode-Nutzung, mehr bewusste Nutzung von GPT-5-Thinking oder Claude Extended Thinking für spezifische Aufgabenkategorien und mehr Bereitschaft, auf DeepSeek R1 zu fallen, wenn ich Reasoning auf einer hochvolumigen Aufgabe nutzen will, bei der die Preislücke zählt.

Monatliche Zahlen#

Meine ungefähren Kosten über Q1 2026 für einen Solo-Dev-Workload, der all das mischt:

  • GPT-5-Calls (mit und ohne Thinking): rund 40 Dollar/Monat im Schnitt.
  • Claude Sonnet 4.6 via API (meist mit Extended Thinking): rund 70 Dollar/Monat.
  • o3/o4-mini für spezifische Reasoning-lastige Aufgaben: rund 15 Dollar/Monat.
  • DeepSeek R1 für Batch/Volumen-Aufgaben, wo Preis zählt: rund 8 Dollar/Monat.

Gesamt: rund 133 Dollar/Monat bei meiner Nutzung, gegenüber was 2024 vor den Preissenkungen und der GPT-5-Effizienz-Verbesserung das Doppelte gewesen wäre. Die Produktivität, die ich bekomme, ist nicht gesunken — sie ist gestiegen, weil ich bessere Modelle selektiv nutze.

Weiterlesen#

Quellen#


Roland Hentschel

Roland Hentschel

AI & Web Technology Expert

Web developer and AI enthusiast helping businesses navigate the rapidly evolving landscape of AI tools. Testing and comparing tools so you don't have to.

Tools aus diesem Beitrag

Weitere Beiträge aus dem Blog