Prompt Engineering ist tot. Prompt Design lebt.

Die Tricks und woher sie kamen#

Die Standard-Ratschläge zu "Prompt Engineering", die Leute wiederholen, haben eine konkrete Entstehungsgeschichte. Fast alle kanonischen Tricks wurden in Papers von 2022 und 2023 popularisiert, gemessen auf den damaligen Modellen. Die zwei einflussreichsten:

Chain-of-Thought / "Let's think step by step" kommt aus Kojima et al., Large Language Models are Zero-Shot Reasoners, NeurIPS 2022 (arXiv:2205.11916). Das Paper maß Genauigkeits-Sprünge auf text-davinci-002: MultiArith 17,7% → 78,7%, GSM8K 10,4% → 40,7%. Das sind die Zahlen, die tausend "think step by step" Ergänzungen in Prompts auslösten.

EmotionPrompt / "das ist sehr wichtig für meine Karriere" kommt aus Li et al., Large Language Models Understand and Can Be Enhanced by Emotional Stimuli, 2023 (arXiv:2307.11760). Das Paper berichtete 8,00% relative Performance-Verbesserung auf Instruction Induction und 115% auf BIG-Bench, getestet auf Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT und GPT-4.

Das sind beides echte Papers mit echten Ergebnissen auf echten Modellen. Das Problem ist, dass seitdem alles erodiert hat, wie gut diese spezifischen Tricks auf die aktuelle Frontier-Modell-Generation übertragbar sind, und die offiziellen Prompting-Guides der Modell-Labs selbst sind weitergezogen.

Was die Evidenz auf modernen Modellen wirklich sagt#

Es gibt drei ehrliche Dinge zu den klassischen Tricks auf 2026er-Frontier-Modellen wie Claude Opus 4.7 (veröffentlicht 16. April 2026), Claude Sonnet 4.6, Claude Haiku 4.5 und GPT-5.

Erstens: Es gibt keine öffentliche Replikation der ursprünglichen CoT- oder EmotionPrompt-Zahlen auf aktuellen Frontier-Modellen. Die Schlagzeilen-Prozente, die du zitiert siehst, stammen aus der alten Modell-Generation und sollten nicht als übertragbar angenommen werden. Vielleicht tun sie es, vielleicht nicht. Die ehrliche Position ist unsicher.

Zweitens: Für Reasoning-fähige Modelle ist "think step by step" strukturell redundant. Modelle wie Claude mit Extended Thinking, GPT-5 im Reasoning-Modus und OpenAIs o-Serie produzieren intern schon Chain-of-Thought, bevor sie antworten. Die Instruktion zum Prompt hinzuzufügen ruft kein neues Verhalten auf; es dupliziert eins, das das Modell schon tut. Die offizielle Anthropic-Guidance reflektiert das. Die Claude-4-Best-Practices (Docs) betonen Explizitheit darüber, was du willst, Beispiele und Input-Strukturierung, nicht das Einwickeln des Prompts in ein Reasoning-Induktions-Ritual.

Drittens: Der Effekt von Role Prompting auf aktuellen Modellen ist gemischt, nicht eindeutig positiv. Eine RecSys-Evaluation von 2025 (Revisiting Prompt Engineering, ACM 2025) fand, dass Role-Play-Prompting "nicht immer verbesserte… und in einigen Fällen Performance reduzierte" auf Empfehlungs-Aufgaben. Ein früheres arXiv-Paper (2509.23501) testete Role Prompting auf GPT-3.5, GPT-4o und Llama 2 und berichtete, Ergebnisse seien "aufgabensensitiv", nicht konstant positiv. Die ältere Intuition, dass "du bist ein Experten-X" zuverlässig Experten-Fähigkeit freischaltet, wird durch aktuelle systematische Evaluation nicht gestützt.

Nichts davon ist die Behauptung, dass die alten Techniken tot sind. Es ist die Behauptung, dass sie weniger tragend sind, als ihr Ruf suggeriert, und dass die Frontier-Modell-Guidance sich woanders hinverschoben hat.

Was die offiziellen Guides jetzt empfehlen#

Anthropics aktueller Prompt Engineering Overview und Claude 4 Best Practices fokussieren auf:

Explizit und direkt über den gewünschten Output sein.
Kontext und Motivation für die Aufgabe liefern.
Beispiele für das gewünschte Format nutzen.
Prompts mit XML-Tags oder klaren Sektionen strukturieren.
Claude denken lassen, wenn nützlich, entweder durch Fragen oder Extended-Thinking-Modus.

OpenAIs Prompt Engineering Guide, das GPT-4.1 Prompting Cookbook und die GPT-5 Prompt Guidance treffen ähnliche Themen: Klarheit, Struktur, Beispiele, explizite Erfolgskriterien. GPT-4.1 und GPT-5 werden als Modelle beschrieben, die Instruktionen wörtlicher befolgen als ältere Modelle, was bedeutet, dass Klarheit der Instruktionen mehr zählt, nicht weniger.

Über beide gelesen ist das Bild konsistent. Die hohen Hebel 2026 sind keine Ritual-Phrasen. Sie sind:

Das Ziel präzise in einem oder zwei Sätzen formulieren.
Den richtigen Kontext liefern — einschließlich Referenzmaterial, Beispielen des gewünschten Output-Stils und expliziten Erfolgskriterien.
Lange Prompts so strukturieren, dass das Modell die wichtigen Teile findet.
Das richtige Modell für die Aufgabe nutzen, einschließlich ob Reasoning-Modus an sein soll.

Ich denke daran als Prompt Design statt Prompt Engineering. Der Skill verschob sich von "kenn die cleveren Phrasen" zu "wiss wie man spezifiziert was man will und liefert was das Modell braucht". Dieser Skill war immer der tragende. Die Tricks waren ein Shortcut, der funktionierte, als Modelle weniger fähig waren, Intent abzuleiten.

Der Jobtitel-Kollaps#

Wenn sich die Techniken verschoben, hat sich der Arbeitsmarkt mit verschoben. Der Microsoft Work Trend Index 2025, 31.000 Leute in 31 Ländern befragt, fand "Prompt Engineer" nahe am Ende der geplanten neuen Rollen. Fortune berichtete im Mai 2025, dass Prompt-Engineering-Stellenanzeigen "bei rund 0,3% der KI-bezogenen Listings 2024 peakten und scharf abfielen" (Fortune, 7. Mai 2025). TechRepublic berichtete den gleichen Trend (Quelle).

Der Job-Kollaps ist aussagekräftig, weil Hiring eine Revealed Preference ist. Als Firmen wirklich unsicher waren, wie man mit LLMs arbeitet, war "Prompt Engineer" eine sinnvolle Spezialisierung. Als die Modell-Labs bessere Guides veröffentlichten und die Basis-Modelle leichter zu handhaben wurden, wurde die Spezialität in gewöhnliche KI-unterstützte Wissensarbeit absorbiert. Das ist keine Tragödie — es ist ein normales Muster für jede Kategorie, bei der der harte Teil commoditisiert wird.

Die Spezialisten-Arbeit, die noch echt ist, wanderte den Stack hoch. Prompt-Pipelines bauen, bei denen der Output eines Calls den nächsten speist, Retrieval-Schichten designen, bei denen Kontext programmatisch gebaut wird, Evaluationen aufsetzen, um zu messen, ob ein KI-Feature tatsächlich funktioniert — das sind substanzielle Engineering-Aufgaben. Sie sind auch nicht, was "Prompt Engineer" 2023 bedeutete.

Was stattdessen üben#

Wenn du besser werden willst im Arbeiten mit aktuellen Modellen, die nützlichen Gewohnheiten:

Schreib klare Spezifikationen. Der meiste schlechte Output kommt von unscharfen Anfragen. Üb, in fünf spezifischen Sätzen zu sagen, was du willst.

Bau eine persönliche Bibliothek funktionierender Kontexte. Speichere Prompts und Kontext-Muster, die funktionierten, mit Notizen warum. Deine Schreibstimme, deine Zielgruppen-Profile, dein Code-Stil. Wiederverwenden.

Lies die offiziellen Guides, nicht die Blogs. Anthropics und OpenAIs veröffentlichte Guidance ist kostenlos, gepflegt und aktueller als der durchschnittliche 2023er-Prompt-Engineering-Blog-Post.

Test Modell gegen Modell. Wenn Output schlecht ist, probier ein anderes Modell mit demselben Prompt. Manchmal ist das Problem der Prompt. Manchmal das Modell. Zu wissen welches, ist ein Skill.

Nutz Reasoning-Modus bewusst. Für Aufgaben mit verifizierbaren richtigen Antworten oder bei denen das Modell zu systematischen Fehlern neigt, schalt Extended Thinking an. Für kreative Aufgaben und latenzsensitive Arbeit lass es aus. Das Wählen ist der Job.

Weiterlesen#

Claude Prompts debuggen was tun, wenn Output falsch ist.
Reasoning-Modelle: Wann lohnen sie sich? wann Extended Thinking sich auszahlt.
Vibe Coding ist eine Lüge für verwandte Daten zu KI-Coding-Tool-Produktivität.

Prompt Engineering war eine temporäre Disziplin, die eine Lücke zwischen dem, was Modelle konnten, und dem, was Nutzer fragen konnten, füllte. Die Lücke schloss sich genug, dass die Disziplin ihre Spezifität verlor. Was bleibt, ist ein breiterer Skill namens Prompt Design, und die Evidenz ist, dass er auf dieselben Gewohnheiten klaren Denkens und sorgfältiger Spezifikation abbildet, die immer gute von schlechter technischer Kommunikation trennten.

Quellen#

Kojima et al., Large Language Models are Zero-Shot Reasoners, arXiv:2205.11916: https://arxiv.org/abs/2205.11916
Li et al., EmotionPrompt, arXiv:2307.11760: https://arxiv.org/abs/2307.11760
Revisiting Prompt Engineering (RecSys 2025, ACM): https://dl.acm.org/doi/10.1145/3705328.3748159
Role Prompting Evaluation (arXiv:2509.23501): https://arxiv.org/html/2509.23501v1
Anthropic Prompt Engineering Overview: https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/overview
Anthropic Claude 4 Best Practices: https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/claude-4-best-practices
OpenAI Prompt Engineering Guide: https://platform.openai.com/docs/guides/prompt-engineering
OpenAI GPT-4.1 Prompting Guide: https://cookbook.openai.com/examples/gpt4-1_prompting_guide
OpenAI GPT-5 Prompt Guidance: https://developers.openai.com/api/docs/guides/prompt-guidance
Fortune zu Prompt-Engineering-Jobs, Mai 2025: https://fortune.com/2025/05/07/prompt-engineering-200k-six-figure-role-now-obsolete-thanks-to-ai/
TechRepublic zu Prompt-Engineering-Jobs: https://www.techrepublic.com/article/news-prompt-engineering-ai-jobs-obsolete/
Claude Opus 4.7 Launch: https://llm-stats.com/blog/research/claude-opus-4-7-launch

Roland Hentschel

AI & Web Technology Expert

Web developer and AI enthusiast helping businesses navigate the rapidly evolving landscape of AI tools. Testing and comparing tools so you don't have to.

Prompt Engineering ist tot. Prompt Design lebt.

Die Tricks und woher sie kamen#

Was die Evidenz auf modernen Modellen wirklich sagt#

Was die offiziellen Guides jetzt empfehlen#

Der Jobtitel-Kollaps#

Was stattdessen üben#

Weiterlesen#

Quellen#

Roland Hentschel

Tools aus diesem Beitrag

ChatGPT Guide 2026

Claude Guide 2026

Zapier Guide 2026

Weitere Beiträge aus dem Blog

Das stille Ende der 'KI-Agenten': was in Produktion wirklich funktioniert

Das Deep-Research-Duell: Claude, ChatGPT, Perplexity und Gemini im Vergleich

Deutsche Unternehmen und KI 2026: Warum Adoption nichts wie in den USA aussieht