Skip to main content
AI Tool Radar
Practical Guides

GPT Image 2 Prompting: Meisterkurs in 10 Stilen

OpenAI GPT Image 2 erklärt: Preise, was neu ist, und ein Praxis-Meisterkurs zum Prompting mit 10 Stilen, jeder mit dem vollen High-End-Prompt.

10 min read2026-05-31Von Roland Hentschel
gpt image 2openaiki bildgenerierungpromptingbild prompts

GPT Image 2 (Modell-ID gpt-image-2) ist 2026 OpenAIs empfohlenes Standard-Bildmodell, in den offiziellen Modell-Docs als "state-of-the-art" bezeichnet. Das Spannende für alle, die Bilder erstellen, ist nicht der Modellname. Es ist, dass der Unterschied zwischen einem mittelmäßigen und einem großartigen Ergebnis fast vollständig im Prompt steckt.

Dieser Beitrag macht zwei Dinge. Zuerst die Fakten: was GPT Image 2 wirklich ist und was es kostet, aus primären OpenAI-Quellen. Dann der nützliche Teil: eine Prompting-Methode aus OpenAIs eigenem Cookbook und anerkannten Praxis-Guides, gefolgt von 10 Stilrichtungen, jede mit dem vollen High-End-Prompt, den ich genutzt habe, und einer kurzen Erklärung, warum er funktioniert. Jedes Bild unten wurde mit gpt-image-2 selbst erzeugt.

Was GPT Image 2 ist#

GPT Image 2 ersetzt die Modelle mit fester Größe (gpt-image-1 und gpt-image-1.5, die nur 1024x1024, 1024x1536 oder 1536x1024 ausgeben) durch flexible Auflösungen und drei Qualitätsstufen. Laut OpenAIs Prompting-Guide zur Bildgenerierung akzeptiert das Modell jede Größe, bei der die längste Kante unter 3840px liegt, beide Kanten ein Vielfaches von 16 sind, das Verhältnis von langer zu kurzer Kante höchstens 3:1 beträgt und die Gesamtpixelzahl zwischen 655.360 und 8.294.400 liegt, in niedriger, mittlerer oder hoher Qualität. Derselbe Guide nennt es "the strongest overall model" und den "recommended default for new builds".

Was es kostet#

Die Abrechnung erfolgt token-basiert, nicht pro Bild, auf der Standard-Stufe (OpenAI API-Preise, Entwickler-Preis-Docs):

Token-TypStandardCached
Text-Input5,00 $ / 1M1,25 $ / 1M
Bild-Input8,00 $ / 1M2,00 $ / 1M
Bild-Output30,00 $ / 1Mn/a

Eine Batch-Stufe läuft 50% günstiger. In der Praxis liegt ein einzelnes 1024x1024-Bild grob zwischen 0,006 $ (niedrige Qualität) und etwa 0,21 $ (hohe Qualität); jedes Bild in diesem Beitrag ist in hoher Qualität, kalkuliere das also ein, wenn du skalierst.

So promptest du GPT Image 2: die Methode#

Die nützlichste Idee, direkt aus dem Praxis-Guide von fal.ai: "Excitement does not render." Wörter wie stunning, epic, masterpiece, insane detail bringen nichts. Konkrete visuelle Angaben bringen alles. Ersetze Lob durch Licht (bedecktes Tageslicht, weiches Aufhelllicht), Materialien (gebürstetes Aluminium, abblätternde Farbe, abgenutzte Leinwand) und Objektiv-Eigenschaften (ein 85mm-Look). Das Modell rendert, was du beschreiben kannst, nicht was du bewunderst.

Sechs Regeln tragen den größten Teil:

  1. Reihenfolge zählt. OpenAI empfiehlt eine konsistente Abfolge: Hintergrund/Szene, dann Subjekt, dann Schlüsseldetails, dann Constraints (Cookbook). Jeder Prompt unten folgt ihr.
  2. Nutze ein Template. Die Fünf-Slot-Struktur von fal.ai ist ein verlässliches Gerüst: Scene, Subject, Important details, Use case, Constraints.
  3. An den Constraints scheitern schwache Prompts lautlos. Eine unbegrenzte Idee lässt dem Modell Raum, in Richtungen kreativ zu werden, die du nicht wolltest. Nenne Ausschlüsse und Invarianten explizit: no watermark, no extra text, no logos, oder bei Edits preserve the layout.
  4. Für korrekten Text sei wörtlich. Setze die exakten Wörter in Anführungszeichen oder GROSSBUCHSTABEN und gib die Typografie an (Schriftstil, Größe, Farbe, Platzierung). Nutze mittlere oder hohe Qualität für kleinen oder dichten Text und buchstabiere knifflige Wörter Buchstabe für Buchstabe (Cookbook). Stil 10 unten ist eine Live-Demo.
  5. Bei Edits isoliere die Änderung. Nutze "change only X" plus "keep everything else the same" und wiederhole die Preserve-Liste in jeder Iteration, um Drift zu reduzieren.
  6. Wähle ein Format und halte es übersichtlich. Minimal-Prompts, beschreibende Absätze, JSON-artige Strukturen, Instruktions-Stil und Tag-basierte Prompts funktionieren alle; der Cookbook-Rat ist, dass das Format wartbar bleibt. Die Beispiele hier nutzen beschreibende Absätze.

10 Stile, 10 Profi-Prompts#

Jedes Bild ist gpt-image-2 in hoher Qualität. Der Prompt steht vollständig da, damit du ihn kopieren, anpassen und die Methode in Aktion sehen kannst.

1. Fotorealistisches Porträt#

Fotorealistisches Studio-Porträt eines wettergegerbten Fischers im Navy-Wollpullover, erzeugt mit GPT Image 2
Fotorealistisches Studio-Porträt eines wettergegerbten Fischers im Navy-Wollpullover, erzeugt mit GPT Image 2

Soft north-facing window light filling a quiet studio with pale grey walls. A 60-year-old fisherman with weathered, deeply lined skin and a short white beard, looking just off camera, wearing a worn navy wool sweater. Fine skin texture with visible pores, catchlights in the eyes, individual beard hairs, shallow depth of field. Full-frame camera with an 85mm lens at f/1.8, soft background falloff, neutral natural color grade. Photorealistic. No text, no watermark.

Warum es funktioniert: zuerst die Szene (Fensterlicht, graues Studio), dann das Subjekt, dann die Detail-Modifizierer, dann die Constraints. Die Objektiv-Zeile leistet die Schwerarbeit: "85mm at f/1.8" bringt schmeichelhafte Kompression und einen weichen Hintergrund gratis, und "visible pores, catchlights, individual beard hairs" erzwingt echte Textur statt Plastikhaut.

2. Cinematic Film Still#

Cinematic-anamorphes Filmstandbild einer Figur im Mantel in einer regennassen Neon-Gasse, erzeugt mit GPT Image 2
Cinematic-anamorphes Filmstandbild einer Figur im Mantel in einer regennassen Neon-Gasse, erzeugt mit GPT Image 2

A rain-soaked neon alley in a dense night city, shallow puddles reflecting magenta and cyan signage. A lone figure in a long charcoal coat walking away from camera, backlit by a distant streetlight, atmospheric haze drifting through the frame. Anamorphic widescreen framing, teal and orange grade, volumetric light shafts, 40mm lens feel, subtle film grain. Cinematic film still, moody and quiet. No text, no watermark.

Warum es funktioniert: die Stimmung kommt aus benannten Begriffen der Filmsprache, nicht aus Adjektiven. "Anamorphic widescreen", "teal and orange grade", "volumetric light" und "film grain" sind konkrete Anweisungen, die ein Colorist erkennt. Gegenlicht plus Dunst erzeugt Tiefe, die das Modell tatsächlich platzieren kann.

3. Studio-Produktshot#

Studio-E-Commerce-Produktshot mattschwarzer Over-Ear-Kopfhörer auf grauem Verlauf, erzeugt mit GPT Image 2
Studio-E-Commerce-Produktshot mattschwarzer Over-Ear-Kopfhörer auf grauem Verlauf, erzeugt mit GPT Image 2

A clean seamless light-grey studio backdrop with a soft gradient. A matte-black wireless over-ear headphone floating at a slight three-quarter angle, brushed aluminium hinges and soft rubber earcups. Crisp softbox key light from upper left, a subtle cool rim light, gentle contact shadow beneath. 100mm macro feel, tack-sharp focus, e-commerce hero composition with generous negative space. Photoreal product render. No text, no watermark.

Warum es funktioniert: Produktfotografie ist ein Lichtproblem. Die Richtung des Hauptlichts, ein Kantenlicht und ein Kontaktschatten zu benennen, gibt dem Modell ein echtes Lichtsetup. "Generous negative space" lässt Platz für eine spätere Headline, genau so werden Hero-Bilder eingesetzt.

4. Stilisiertes 3D-Render#

Gemütliches isometrisches 3D-Diorama eines Cafés mit warmem Innenlicht, erzeugt mit GPT Image 2
Gemütliches isometrisches 3D-Diorama eines Cafés mit warmem Innenlicht, erzeugt mit GPT Image 2

A plain pastel-mint background. A cozy miniature isometric coffee-shop diorama with rounded friendly shapes, a tiny barista character, warm interior glow spilling from the windows, tiny plants and stacked cups. Soft global illumination, subsurface-scattering materials, gentle ambient occlusion, octane-style 3D render, shallow depth of field. Charming and clean. No text, no watermark.

Warum es funktioniert: Render-Engine-Vokabular ("global illumination", "subsurface scattering", "ambient occlusion", "octane-style") gibt dem Modell den ganzen Look in vier Wörtern. "Isometric" und "miniature diorama" fixieren Kamera und Maßstab, damit es nicht zu einer flachen Illustration abdriftet.

5. Anime / Cel-Illustration#

Anime-Cel-Illustration eines Mädchens auf einer windigen Klippe über dem Meer, erzeugt mit GPT Image 2
Anime-Cel-Illustration eines Mädchens auf einer windigen Klippe über dem Meer, erzeugt mit GPT Image 2

Late-afternoon golden sunlight across a grassy clifftop overlooking the sea. A teenage girl in a school uniform holding her sun hat against the wind, hair and skirt billowing, expressive large eyes. Crisp cel shading, bold clean linework, painterly cumulus cloud background, vibrant saturated palette, modern anime film aesthetic. 2D illustration. No text, no watermark.

Warum es funktioniert: "cel shading" und "bold clean linework" fixieren die Render-Technik, während der arbeitende Wind (festgehaltener Hut, wehende Haare und Rock) die Bewegung und Emotion hinzufügt, die Anime-Frames lebendig machen. Die Constraint "2D illustration" verhindert ein Abrutschen ins 3D.

6. Flache Editorial-Illustration#

Flache geometrische Editorial-Illustration einer remote arbeitenden Person am Schreibtisch, erzeugt mit GPT Image 2
Flache geometrische Editorial-Illustration einer remote arbeitenden Person am Schreibtisch, erzeugt mit GPT Image 2

A warm cream background. A flat-design editorial illustration about remote work: a person at a tidy desk with a laptop, a small plant and a coffee cup, built from simple geometric shapes and a limited four-color palette of terracotta, teal, mustard and off-white. Subtle paper grain, no gradients, clean negative space, modern magazine illustration style. Vector flat illustration. No text, no watermark.

Warum es funktioniert: eine exakte Palette zu benennen (vier Farben) und Verläufe zu verbieten, trennt sauberes Flat Design von matschiger KI-Illustration. "Simple geometric shapes" plus "no gradients" ist eine harte Constraint, die das Modell respektiert, und "subtle paper grain" fügt die Editorial-Textur hinzu.

7. Architektur / Interior#

Fotorealistisches sonnendurchflutetes skandinavisches minimalistisches Wohnzimmer, erzeugt mit GPT Image 2
Fotorealistisches sonnendurchflutetes skandinavisches minimalistisches Wohnzimmer, erzeugt mit GPT Image 2

A sunlit Scandinavian living room mid-morning, large windows with sheer curtains diffusing soft daylight. Light oak floors, a pale linen sofa, a single arched brass floor lamp, one large muted abstract canvas, a monstera plant. Calm minimalist composition, realistic soft shadows, warm neutral palette, wide architectural framing with a 24mm lens. Photoreal interior. No text, no watermark.

Warum es funktioniert: Interiors stehen und fallen mit der Lichtqualität und einer kurzen, konkreten Objektliste. "Sheer curtains diffusing soft daylight" setzt die ganze Stimmung; fünf Objekte zu nennen (und nicht mehr) hält den Raum aufgeräumt. Das 24mm-Objektiv gibt die weite, ehrliche Bildaufteilung, die Immobilienfotos nutzen.

8. Food-Makro#

Overhead-Food-Makro eines mit Sirup übergossenen Pfannkuchenstapels mit Blaubeeren, erzeugt mit GPT Image 2
Overhead-Food-Makro eines mit Sirup übergossenen Pfannkuchenstapels mit Blaubeeren, erzeugt mit GPT Image 2

An overhead macro of a fresh stack of fluffy pancakes on a rustic ceramic plate, glossy maple syrup running down the sides, a melting pat of butter on top, a few scattered blueberries. Soft diffused daylight from the left, dewy condensation, rich shallow depth of field, appetizing warm tones. 100mm macro, food-photography styling on a weathered wood table. Photoreal. No text, no watermark.

Warum es funktioniert: Appetit ist Detail. "Glossy syrup running down the sides", "melting pat of butter" und "dewy condensation" sind die konkreten Reize, die als frisch und essbar gelesen werden. Weiches gerichtetes Tageslicht plus 100mm-Makro ist das Standard-Rezept der Food-Fotografie, schlicht ausgesprochen.

9. Surreale Concept Art#

Surreales Matte Painting riesiger transluzenter Quallen über einer Dämmerungswüste, erzeugt mit GPT Image 2
Surreales Matte Painting riesiger transluzenter Quallen über einer Dämmerungswüste, erzeugt mit GPT Image 2

A vast desert at dusk where enormous translucent jellyfish drift through the sky like silent airships, trailing soft blue bioluminescent light. A tiny lone traveler with a lantern stands on a dune looking up, conveying awe and scale. Painterly concept-art rendering, dramatic dusk gradient, deep atmospheric perspective, cinematic color. Digital matte painting. No text, no watermark.

Warum es funktioniert: Maßstab braucht einen Anker. Der "tiny lone traveler" gegen die "enormous jellyfish" macht die surreale Idee lesbar, und "deep atmospheric perspective" weist das Modell an, entfernte Elemente auszublenden, damit die Tiefe wirkt. Der Vergleich ("like silent airships") leitet die Form, ohne sie zu überbestimmen.

10. Typografisches Poster (Demo für korrekten Text)#

Retro-modernes Reiseposter mit GPT IMAGE 2 und PROMPT LIKE A PRO über einer Sonnenaufgangs-Bergkette, erzeugt mit GPT Image 2
Retro-modernes Reiseposter mit GPT IMAGE 2 und PROMPT LIKE A PRO über einer Sonnenaufgangs-Bergkette, erzeugt mit GPT Image 2

A bold retro-modern travel poster with a stylized mountain range at sunrise in layered warm gradients. Centered headline text in large condensed sans-serif reading "GPT IMAGE 2", and a smaller line beneath reading "PROMPT LIKE A PRO". Clean vintage screen-print aesthetic, limited palette of burnt orange, cream and deep teal, balanced symmetrical composition, crisp legible typography. Poster illustration with accurate text. No watermark.

Warum es funktioniert: das ist Regel 4 in Aktion. Die wörtlichen Strings stehen in Anführungszeichen und GROSSBUCHSTABEN, die Typografie ist angegeben ("large condensed sans-serif", "centered", "smaller line beneath"), und die Qualität ist hoch, was OpenAI für lesbaren Text empfiehlt. Text-Rendering war früher das, woran KI-Bildmodelle am härtesten scheiterten; ihn explizit zu zitieren ist der Weg, ihn richtig zu bekommen.

Info

Was dieser Beitrag nicht abdeckt: genaue Release-Daten, die aktuellen ChatGPT-Plus- oder Free-Bildlimits, mehrsprachige Textgenauigkeit und Head-to-Head-Benchmark-Werte gegen Midjourney, Imagen, Flux oder Ideogram. Diese Behauptungen kursieren breit, ließen sich zum Zeitpunkt der Erstellung aber nicht aus verlässlichen Primärquellen bestätigen und bleiben daher bewusst draußen. Preise und Modell-Spezifikationen wurden im Mai 2026 gegen OpenAIs eigene Seiten geprüft und können sich ändern; prüfe die verlinkten Quellen, bevor du darauf aufbaust.

Mehr zu OpenAIs Bild-Linie im DALL-E-Guide. Zum Vergleich der wichtigsten Rivalen von GPT Image 2 lies den Ideogram-Guide und den Midjourney-Guide.

Quellen#


Roland Hentschel

Roland Hentschel

AI & Web Technology Expert

Web developer and AI enthusiast helping businesses navigate the rapidly evolving landscape of AI tools. Testing and comparing tools so you don't have to.

Tools aus diesem Beitrag

Weitere Beiträge aus dem Blog