Die Welle, und warum die meisten Vergleiche nichts taugen#
Zwischen Anfang April und Mitte Mai 2026 haben die großen Labs eine bemerkenswerte Zahl an Frontier- und Near-Frontier-Modellen veröffentlicht. Tracker zählten rund 19 nennenswerte Releases in einem einzigen 30-Tage-Fenster, OpenAI, Anthropic, Google, Meta, DeepSeek, Alibaba und andere haben gleichzeitig nachgelegt.
Die meisten "X vs Y vs Z"-Artikel zu dieser Welle taugen aus einem Grund nichts: Sie zitieren Benchmark-Zahlen von Seiten, die nie eine Primärquelle verlinken. Deshalb vorab eine Regel für diesen Beitrag. Jede harte Zahl hier stammt aus der offiziellen Ankündigung des Anbieters, seiner Doku oder von Artificial Analysis, das eine konsistente, unabhängige Testreihe fährt. Wo ich eine Zahl nicht verifizieren konnte, sage ich das, statt sie zu erfinden.
Das hier ist kein Leaderboard. Für einen Solo-Betrieb oder ein kleines Team lautet die Frage nie "welches Modell hat den höchsten Score". Sie lautet "welches Modell erledigt meine konkrete Arbeit gut genug, zu einem Preis, den ich rechtfertigen kann". Das sind zwei verschiedene Fragen.
Schnellvergleich#
| GPT-5.5 | Claude Opus 4.7 | Gemini 3.5 Flash | |
|---|---|---|---|
| Veröffentlicht | 23. Apr 2026 | 16. Apr 2026 | 19. Mai 2026 |
| API-Preis (Input / Output, pro 1M Tokens) | 5 / 30 USD | 5 / 25 USD | 1,50 / 9 USD |
| Positionierung | Frontier-Generalist, Spitze des Index | Langlaufende Agenten + Wissensarbeit | Schnell, günstig, hohes Volumen |
| Besonderheit | Führt den Artificial Analysis Intelligence Index an | Erste Claude mit hochauflösender Bildeingabe | Mit Abstand die günstigste der drei |
Preise Stand 25. Mai 2026. Aktuelle Preise immer auf der Anbieterseite prüfen: OpenAI, Anthropic, Google.
GPT-5.5: die neue Obergrenze, zum neuen Preis#
OpenAI hat GPT-5.5 am 23. April 2026 veröffentlicht. Die Schlagzeile ist die Leistung: GPT-5.5 (xhigh) führt aktuell den Artificial Analysis Intelligence Index mit einem Wert von 60 an, vor dem Rest des Feldes. OpenAI nennt für SWE-bench Verified rund 88,7 Prozent, gegenüber etwa 74 Prozent bei GPT-5.4, und beziffert den Netto-Zuwachs im Intelligence Index auf rund 20 Prozent, sobald man Token-Effizienz einrechnet.
Die zweite Schlagzeile ist die Rechnung. GPT-5.5 kostet 5 US-Dollar pro Million Input-Tokens und 30 US-Dollar pro Million Output-Tokens, OpenAI hat damit den Output-Preis der GPT-5-Reihe etwa verdoppelt. Dazu kommt GPT-5.5 Pro mit 30 / 180 USD für Parallel-Reasoning sowie eine leichtere Variante GPT-5.5 Instant, die am 5. Mai erschien.
Wofür es passt: GPT-5.5 ist das Modell für den Fall, dass Korrektheit bei einer schweren, klar definierten Aufgabe wichtiger ist als die Kosten. Komplexes Coding, Computer-Use-Agenten, dichte Analysearbeit. Die Pro-Stufe ist ein Spezialwerkzeug, kein Alltagsmodell. Für ein kleines Unternehmen nutzt man GPT-5.5 am besten gezielt, nicht als Standardmodell hinter jeder Funktion, sonst überrascht die Output-Rechnung.
Claude Opus 4.7: gebaut für Agenten, ehrlich über die Grenze#
Anthropic hat Claude Opus 4.7 am 16. April 2026 veröffentlicht. Es ist das bislang leistungsfähigste allgemein verfügbare Modell von Anthropic, und das Unternehmen war beim Launch ungewöhnlich offen: Es räumte ein, dass Opus 4.7 einem unveröffentlichten internen Modell mit dem Codenamen Mythos hinterherhängt, das man als risikoärmere Option zurückhielt.
Die belegten Zuwächse gegenüber Opus 4.6 sind solide, nicht spektakulär: SWE-bench Verified 87,6 Prozent (von 80,8), Terminal-Bench 2.0 69,4 Prozent, GPQA Diamond 94,2 Prozent und Finance Agent 64,4 Prozent. Im Artificial Analysis Intelligence Index erreicht es 57. Es ist außerdem die erste Claude mit hochauflösender Bildeingabe, das Maximum steigt auf 2576px / 3,75 MP, was zählt, wenn du Screenshots, Dokumente oder Diagramme einspeist.
Der Preis blieb bei 5 / 25 USD pro Million Tokens, gleich wie bei Opus 4.6. Ein Detail, das man kennen sollte: Opus 4.7 bringt einen aktualisierten Tokenizer mit, der denselben Input auf rund das 1,0- bis 1,35-Fache an Tokens abbilden kann, laut Anthropics eigenen Modellnotizen. Deine realen Kosten pro Anfrage können also steigen, obwohl der Listenpreis gleich blieb.
Wofür es passt: Opus 4.7 ist die stärkste Wahl für langlaufende Agenten-Arbeit, mehrstufige Planung und Wissensaufgaben, bei denen das Modell viel Kontext halten und kohärent bleiben muss. Wer einen Assistenten baut, der über viele Schritte hinweg Aktionen ausführt, fährt damit als Standard sicher.
Gemini 3.5 Flash: die Kostenwette#
Googles jüngster Zug auf dieser Liste ist Gemini 3.5 Flash, veröffentlicht am 19. Mai 2026 als leichtes, schnelles Modell. Es kostet 1,50 USD Input / 9 USD Output pro Million Tokens, mit Abstand das günstigste der drei hier, und es kommt im Rahmen von Googles breiterem Vorstoß in die "agentische Ära" (der Gemini-Spark-Agent, das Weltmodell Omni und Gemma 4 auf der Open-Weight-Seite).
Auf die Bezeichnung achten: Stand Ende Mai 2026 ist der Neuzugang auf der Gemini-Seite die Flash-Stufe. Für Reasoning der Spitzenklasse listet Artificial Analysis weiterhin Gemini 3.1 Pro Preview, das 57 im Intelligence Index erreicht, bei 2 / 12 USD pro Million Tokens. Einen unabhängig verifizierten Wert für ein "Gemini 3.5 Pro" konnte ich zum Redaktionszeitpunkt nicht bestätigen, behandle jede solche Zahl anderswo also mit Vorsicht.
Wofür es passt: Flash ist das Volumenmodell. Klassifizierung, Extraktion, Zusammenfassung, Chat über große Dokumentmengen, alles, was du tausendfach laufen lässt und wo jeder Aufruf günstig sein muss. Bei einem Zehntel des Output-Preises von GPT-5.5 verschiebt das, was für ein kleines Team wirtschaftlich überhaupt möglich ist.
Wer sollte was nehmen#
Es gibt keinen einzelnen Sieger, und wer das behauptet, hat keine echte Arbeitslast durchgerechnet. Eine praktische Aufteilung:
- Schwere Einzelaufgaben mit hohem Einsatz (ein kniffliger Bug, eine dichte rechtliche oder finanzielle Analyse): GPT-5.5. Zahl für die Obergrenze, wenn es einmal richtig zu machen mehr wert ist als die Token-Kosten.
- Agenten und lange mehrstufige Arbeit: Claude Opus 4.7. Kohärenz über viele Schritte ist seine stärkste Eigenschaft, und die hochauflösende Bildverarbeitung hilft bei Dokument- und Screenshot-Workflows.
- Hohes Volumen, kostensensibel: Gemini 3.5 Flash. Wenn du das Modell tausendfach aufrufst, dominiert die Preisdifferenz alles andere.
Ein Muster, das sich von größeren Teams lohnt zu übernehmen: nach Aufgabe routen, nicht nach Markentreue. Nutze ein günstiges Modell für die 80 Prozent der Aufrufe, die einfach sind, und eskaliere nur für die schweren 20 Prozent zu einem Frontier-Modell. Die Ersparnis ist groß und der Qualitätsverlust meist unsichtbar.
Der ehrliche Vorbehalt zu Benchmarks#
Jede Zahl in diesem Beitrag ist echt und belegt, aber ein Benchmark ist nicht deine Arbeitslast. SWE-bench ist nicht deine Codebasis. Ein Intelligence Index ist ein Durchschnitt über zehn Evaluationen, keine Vorhersage, wie ein Modell mit deinen Prompts, deinen Daten, deinen Sonderfällen umgeht. Die Labs optimieren hart auf die Tests, die zitiert werden.
Der einzige Benchmark, der für dein Geschäft zählt, ist dein eigener: Nimm deine drei oder vier häufigsten Aufgaben, schick sie durch zwei oder drei dieser Modelle und vergleiche Ergebnis und Kosten. Dieser eine Nachmittag Testen sagt dir mehr als jedes Leaderboard, auch mehr als dieses hier.
Quellen#
- GPT-5.5 Preis und Release: apidog Preisaufstellung, LLM-Stats Modell-Updates
- Claude Opus 4.7 Release und Benchmarks: Anthropic-Ankündigung, Anthropic Modellnotizen, CNBC zu Opus 4.7 vs Mythos
- Gemini 3.5 Flash und Googles agentische Releases: CNBC zu Google AI Ultra, Gemini Spark und Omni
- Unabhängige Benchmarks und Intelligence Index: Artificial Analysis
