GPT Image 2 Meisterkurs: Prompts & dein Gesicht

GPT Image 2 (Modell-ID gpt-image-2) ist 2026 OpenAIs empfohlenes Standard-Bildmodell, in den offiziellen Modell-Docs als "state-of-the-art" bezeichnet. Das Spannende für alle, die Bilder erstellen, ist nicht der Modellname. Es ist, dass der Unterschied zwischen einem mittelmäßigen und einem großartigen Ergebnis fast vollständig im Prompt steckt.

Das ist die Langfassung. Zuerst die Fakten: was GPT Image 2 wirklich ist und was es kostet, aus primären OpenAI-Quellen. Dann eine Prompting-Methode aus OpenAIs eigenem Cookbook und anerkannten Praxis-Guides, ein Prompt Fragment für Fragment seziert, und eine Sektion zu Charakter-Konsistenz: wie man eine reale, wiedererkennbare Person (mein eigenes Gesicht, aus einem Ordner Studio-Fotos) in jede beliebige Szene setzt, samt der hart erarbeiteten Lektionen, die ein Dutzend Fehlversuche gekostet haben. Zum Schluss 10 Stilrichtungen, jede mit dem vollen Prompt. Jedes Bild unten wurde mit gpt-image-2 selbst erzeugt.

Was GPT Image 2 ist#

GPT Image 2 ersetzt die Modelle mit fester Größe (gpt-image-1 und gpt-image-1.5, die nur 1024x1024, 1024x1536 oder 1536x1024 ausgeben) durch flexible Auflösungen und drei Qualitätsstufen. Laut OpenAIs Prompting-Guide zur Bildgenerierung akzeptiert das Modell jede Größe, bei der die längste Kante unter 3840px liegt, beide Kanten ein Vielfaches von 16 sind, das Verhältnis von langer zu kurzer Kante höchstens 3:1 beträgt und die Gesamtpixelzahl zwischen 655.360 und 8.294.400 liegt, in niedriger, mittlerer oder hoher Qualität. Derselbe Guide nennt es "the strongest overall model" und den "recommended default for new builds".

Was es kostet#

Die Abrechnung erfolgt token-basiert, nicht pro Bild, auf der Standard-Stufe (OpenAI API-Preise, Entwickler-Preis-Docs):

Token-Typ	Standard	Cached
Text-Input	5,00 $ / 1M	1,25 $ / 1M
Bild-Input	8,00 $ / 1M	2,00 $ / 1M
Bild-Output	30,00 $ / 1M	n/a

Eine Batch-Stufe läuft 50% günstiger. In der Praxis liegt ein einzelnes 1024x1024-Bild grob zwischen 0,006 $ (niedrige Qualität) und etwa 0,21 $ (hohe Qualität); jedes Bild in diesem Beitrag ist in hoher Qualität, kalkuliere das also ein, wenn du skalierst.

So promptest du GPT Image 2: die Methode#

Die nützlichste Idee, direkt aus dem Praxis-Guide von fal.ai: "Excitement does not render." Wörter wie stunning, epic, masterpiece, insane detail bringen nichts. Konkrete visuelle Angaben bringen alles. Ersetze Lob durch Licht (bedecktes Tageslicht, weiches Aufhelllicht), Materialien (gebürstetes Aluminium, abblätternde Farbe, abgenutzte Leinwand) und Objektiv-Eigenschaften (ein 85mm-Look). Das Modell rendert, was du beschreiben kannst, nicht was du bewunderst.

Sechs Regeln tragen den größten Teil:

Reihenfolge zählt. OpenAI empfiehlt eine konsistente Abfolge: Hintergrund/Szene, dann Subjekt, dann Schlüsseldetails, dann Constraints (Cookbook). Jeder Prompt unten folgt ihr.
Nutze ein Template. Die Fünf-Slot-Struktur von fal.ai ist ein verlässliches Gerüst: Scene, Subject, Important details, Use case, Constraints.
An den Constraints scheitern schwache Prompts lautlos. Eine unbegrenzte Idee lässt dem Modell Raum, in Richtungen kreativ zu werden, die du nicht wolltest. Nenne Ausschlüsse und Invarianten explizit: no watermark, no extra text, no logos, oder bei Edits preserve the layout.
Für korrekten Text sei wörtlich. Setze die exakten Wörter in Anführungszeichen oder GROSSBUCHSTABEN und gib die Typografie an (Schriftstil, Größe, Farbe, Platzierung). Nutze mittlere oder hohe Qualität für kleinen oder dichten Text und buchstabiere knifflige Wörter Buchstabe für Buchstabe (Cookbook). Stil 10 unten ist eine Live-Demo.
Bei Edits isoliere die Änderung. Nutze "change only X" plus "keep everything else the same" und wiederhole die Preserve-Liste in jeder Iteration, um Drift zu reduzieren.
Wähle ein Format und halte es übersichtlich. Minimal-Prompts, beschreibende Absätze, JSON-artige Strukturen, Instruktions-Stil und Tag-basierte Prompts funktionieren alle; der Cookbook-Rat ist, dass das Format wartbar bleibt. Die Beispiele hier nutzen beschreibende Absätze.

Das Fotografen-Toolkit: Kamera-Handwerk als Prompt-Sprache#

Das ist das Herz des Meisterkurses. Ein guter Bild-Prompt ist kein kreatives Schreiben, sondern ein Kamera-Protokoll. Fotografen haben längst ein präzises Vokabular für Licht, Objektive und Bildaufbau, und GPT Image 2 versteht fast alles davon. Hör auf, "schönes Foto" zu schreiben, und schreib das Datenblatt, das ein Fotograf seiner Assistenz geben würde.

Licht: forme es, hell machen reicht nicht#

Licht ist der größte Hebel. Benenne Form, Qualität und Richtung.

Begriff für den Prompt	Wirkung	Wann einsetzen
Rembrandt-Licht	Key bei ~45 Grad, leicht erhöht, lässt ein Lichtdreieck auf der Schattenwange	charaktervolle, moody Porträts
Loop-Licht	Key leicht aus der Mitte, kleine Nasenschatten-Schleife	der sichere, schmeichelnde Standard
Butterfly / Clamshell	Key hoch und frontal (plus Fill von unten)	clean Beauty, ebenmäßige Haut
Split-Licht	Key 90 Grad zur Seite, halbes Gesicht im Schatten	Drama, Spannung, kantiges Editorial
Broad vs Short Lighting	belichtet die nahe vs. die ferne Seite des gedrehten Gesichts	Short modelliert/schlankt, Broad öffnet
Rim / Kicker / Hair-Light	Licht von hinten, trennt Subjekt vom Hintergrund	fast immer hinzufügen, für Tiefe
High-Key vs Low-Key	hell, luftig, kontrastarm vs. dunkel, dramatisch, tiefe Schatten	setzt die gesamte Stimmung

Dann die Qualität: eine große weiche Quelle (Softbox, Octabox, bedeckter Himmel, Nordfenster) gibt weiches, umhüllendes, verzeihendes Licht; eine kleine harte Quelle (nackte Glühbirne, direkte Sonne, Spot) gibt scharfes, kontrastreiches Licht mit harten Schattenkanten. "Weiches bedecktes Tageslicht" und "ein einzelner harter Spot" sind Tag und Nacht. Je größer und näher die Quelle, desto weicher das Licht, schreib es hin.

Objektiv und Brennweite: hier wohnt der Look#

Die Brennweite verändert das Gesicht selbst, nicht nur den Ausschnitt.

Brennweite	Wirkung	Wofür
24-35mm	weit, leichte Perspektiv-Streckung, viel Kontext	Environmental-Porträts, Szenen, Interiors
50mm	natürlich, nah am menschlichen Sehen	dokumentarisch, ehrlich, neutral
85mm	schmeichelnde Kompression, cremige Hintergrund-Trennung	der Porträt-Klassiker
135mm	starke Kompression, Hintergrund schmilzt	eng, glamourös, isolierend

Kombiniere mit der Blende: "f/1.4" oder "f/1.8" gibt eine träumerische geringe Schärfentiefe mit unscharfem Hintergrund und Bokeh; "f/8" oder "f/11" hält alles durchgehend scharf. "Shot on an 85mm lens at f/1.8" sind ein paar Wörter, die enorm viel leisten.

Farbe, Filmmaterial und Grading#

Farbe setzt die Stimmung schneller als alles andere. Benenne ein Grading oder ein Filmmaterial:

Teal-and-Orange-Grade: der moderne Blockbuster-Look (warme Haut, kühle Schatten).
Bleach Bypass: entsättigt, kontrastreich, rau.
Kodak Portra 400: warm, weich, wunderschöne Hauttöne (top für natürliche Porträts).
Kodak Tri-X 400: klassisches Schwarz-Weiß mit kräftigem Korn.
CineStill 800T: tungsten-balanciert, Neon-Halation, nächtlich-cineastisch.

Winkel und Bildaufbau#

Kamerahöhe: Augenhöhe (neutral), Untersicht (heroisch, mächtig), Aufsicht (verkleinernd, verletzlich), Dutch-Tilt (Unruhe).
Komposition: "rule-of-thirds placement", "centred symmetrical composition", "generous negative space" (Platz für eine Headline), "leading lines", "tight head-and-shoulders crop". Sag dem Modell, wo das Subjekt im Bild sitzt.

Drei, vier davon kombiniert, und du hast ein echtes Foto geschrieben: "low-angle 35mm shot, hard late-afternoon sun from camera-left, teal-and-orange grade, subject placed on the right third."

Haut, Augen und Haar beschreiben, ohne dass es plastik wird#

Die Grenze zwischen Foto und offensichtlicher KI ist Mikro-Textur und Imperfektion. Aber es gibt eine Falle: jedes Detailwort gleichzeitig zu stapeln ergibt einen überzeichneten, wächsernen, hyperrealen Look, der seine eigene Art von Fake ist. Die Regel: drei bis fünf konkrete Hinweise wählen, und mindestens eine Imperfektion einbauen.

Haut: visible pores, fine vellus (peach-fuzz) hair on the cheeks, subsurface scattering, a natural sebaceous sheen on the forehead and nose, a few freckles and a small blemish, skin texture retained, not airbrushed. Die Sommersprosse oder kleine Unreinheit kippt es von "gerendert" zu "echt".

Augen (höchste Wirkung): a detailed iris with a visible limbal ring and fine radial fibres, a sharp catchlight in each eye, a moist lower tear line, individually separated eyelashes, a soft lower lash line. Augen tragen den Realismus; wenn du Detailwörter irgendwo ausgibst, dann hier. Ein scharfes Catchlight allein lässt ein Gesicht lebendig wirken.

Augenbrauen und Bart: individual eyebrow hairs with natural direction, a few stray brow hairs, a beard of individual hairs at varying lengths, keine flache Form.

Haar: strand separation and a soft sheen, a few flyaway strands catching the rim light, natural part. "Flyaways" ist ein kleines Wort, das den Helm-Haar-KI-Tell bricht.

Die Disziplin: beschreibe Textur, dann ergänze natural, lifelike skin, not retouched, not waxy, not plastic als Constraint. Mehr Detailwörter sind nicht besser, die richtigen paar plus eine Imperfektion schlagen jede Adjektiv-Wand. (Schau auf den Fischer in Stil 1: Poren, Catchlights und einzelne Barthaare, drei Hinweise, nicht dreißig.)

Character-Planung: schreib zuerst das Character-Sheet#

Für alles über ein Einzelbild hinaus plane die Figur, bevor du promptest, so wie ein Film ein Character-Design macht. Lege das Folgende fest und nutze es in jedem Bild wortwörtlich wieder, damit die Person konsistent bleibt:

Identität & Alter: "a man in his late 30s".
Gesicht & Statur: Gesichtsform, Teint, Statur.
Signatur-Merkmale: die unverwechselbaren, "a full dark beard, thin round metal-framed glasses". Sie leisten die Hauptarbeit für die Wiedererkennbarkeit.
Haar: Farbe, Länge, Stil.
Wardrobe-Basis: ein Default-Outfit, dann pro Szene zum Kontext variieren (siehe Safari-Beispiel unten).
Demeanor: der Standard-Ausdruck und die Energie, ruhig und warm, oder intensiv, oder verspielt.

Bei einer realen Person sind die Referenzfotos das Character-Sheet (nächste Sektion). Bei einer erfundenen Figur schreib das Sheet einmal als Textblock und füge es unverändert in jeden Prompt ein, das Modell hält die Figur weit besser, als wenn du sie jedes Mal aus dem Gedächtnis neu beschreibst. So oder so: die Figur ist ein fixer Anker, und nur die Szene drumherum ändert sich.

Anatomie eines Prompts, seziert#

Theorie ist billig. Hier der Prompt fürs fotorealistische Porträt von weiter unten, zerlegt in die vier Aufgaben, die jeder starke Prompt erfüllt. Von oben nach unten gelesen liest du: Szene, dann Subjekt, dann Details, dann Constraints.

Fragment	Aufgabe	Warum es seinen Platz verdient
"Soft north-facing window light filling a quiet studio with pale grey walls"	Szene + Licht	Nordlicht ist weich und gleichmäßig. Die Wandfarbe zu nennen setzt den gesamten Tonwert, bevor es ein Subjekt gibt, alles danach erbt dieses Licht.
"A 60-year-old fisherman with weathered, deeply lined skin and a short white beard ... worn navy wool sweater"	Subjekt	Alter, Beruf und Kleidung in einem Atemzug. Konkrete Substantive leisten die Arbeit; kein "markant" oder "charaktervoll", weil solche Adjektive nicht rendern.
"visible pores, catchlights in the eyes, individual beard hairs, shallow depth of field"	Schlüsseldetails	Genau die Textur-Hinweise, die ein Foto von plastikhafter KI-Haut trennen. Catchlights allein lassen Augen lebendig wirken.
"Full-frame camera with an 85mm lens at f/1.8, soft background falloff, neutral natural color grade"	Optik + Grading	Die Objektiv-Zeile bringt schmeichelhafte Kompression und cremige Unschärfe gratis. "Neutral grade" verhindert Übersättigung.
"Photorealistic. No text, no watermark."	Constraints	Fixiert das Medium und killt die zwei häufigsten Artefakte in einer Zeile.

Die Reihenfolge ist keine Deko. Gib dem Modell zuerst die Bühne (Licht und Raum), und das Subjekt steht darin; führst du mit dem Subjekt, erfindet das Modell oft eine Beleuchtung, die gegen die gewünschte Szene arbeitet.

Dein eigenes Gesicht in jeder Szene: Charakter-Konsistenz#

Der nützlichste Trick, den GPT Image 2 freischaltet, ist Identität: dem Modell echte Referenzfotos einer Person zu geben, damit es genau diese Person wiedererkennbar in eine Szene setzt, die nie stattgefunden hat. Jedes Porträt in dieser Sektion bin ich, erzeugt mit gpt-image-2, keines davon fotografiert.

So funktioniert es. Statt des Text-zu-Bild-Endpoints nutzt du den Image-Edits-Endpoint (/v1/images/edits) mit model=gpt-image-2 und hängst Referenzfotos als wiederholte image[]-Felder an. Der Prompt beschreibt dann die neue Szene und sagt dem Modell explizit, die Identität zu bewahren. In der Praxis:

Füttere 10 bis 20 Referenzfotos, nicht 3. Mehr Winkel geben dem Modell ein deutlich robusteres Bild des Gesichts. Drei funktionieren; vierzehn sind spürbar besser.
Frontale Aufnahmen gewinnen. Head-on-Referenzen liefern das sauberste Identitäts-Signal. Starke Profilaufnahmen verwirren mehr als sie helfen.
Vorher runterskalieren. Referenzen auf etwa 1024px an der langen Kante verkleinern, bevor du hochlädst. Schneller, günstiger, kein sichtbarer Unterschied bei der Identität.

Hier vier der frontalen Referenz-Frames, die dem Modell gefüttert wurden:

Kontaktbogen aus vier frontalen Studio-Referenzfotos, mit denen GPT Image 2 die Identität angelernt wurde

Jedes Porträt unten teilt sich einen Identitäts-Anker-Block und ergänzt dann eine szenenspezifische Zeile. Im Anker steckt die eigentliche Lektion:

Preserve his exact identity from the reference photos: same face shape, same short dark-brown hair, same full dark beard, same thin round metal-framed glasses, same eyes. He is a man in his late 30s. CRITICAL: do NOT copy the smiling expression or pose from the reference photos. Render exactly the facial expression, gaze and head angle described in this prompt instead.

Fünf Lektionen, die ein Dutzend Versuche gekostet haben#

Die haben echte Iterationen gekostet, also nimm sie mit:

Referenzen übertragen Mimik und Pose, nicht nur Identität. Meine Referenzfotos zeigen alle dasselbe breite Lächeln, also kam die erste Charge in jeder Szene mit demselben Grinsen heraus, Cinematic-Founder, Ölgemälde, alles. Es wirkte unheimlich. Du musst Mimik und Pose jedes Mal explizit überschreiben.
Die Mimik muss zur Szene passen. Ein Keynote-Speaker ist animiert mitten im Satz; ein Editorial-Headshot ist ruhig und mit geschlossenen Lippen. Entscheide die Emotion, die das Bild braucht, und schreib sie hin.
Übertreib die Intensität nicht, sonst wirkt es böse. "Ernst, intensiv, Lippen geschlossen" auf ein Gesicht zu forcieren, dessen Referenzen lächeln, ergab steife oder regelrecht feindselige Porträts. Die Lösung ist, auf natürlich zu zielen: "a soft genuine micro-smile, friendly eyes, relaxed brow, not stern, not posed".
Beschreibe das Licht wie ein Fotograf. "Gutes Licht" bewirkt nichts. "A large octabox key at 45 degrees with subtle negative fill" oder "clamshell beauty lighting with a rim light for separation" macht aus einem Schnappschuss ein High-End-Porträt.
Hohe Qualität und ein weiterer Ausschnitt für alles mit Text oder Feindetail. Das Magazine-Cover rendert "AI TOOL RADAR" nur in hoher Qualität sauber.
Stilisierte und unmögliche Szenen sind die Königsdisziplin. Ein echtes, angelerntes Gesicht in einer Szene, die nie passiert ist (auf einem Dinosaurier reitend), ist viel stärker als noch ein Headshot, und eine Action- oder Dreiviertel-Perspektive umgeht das Uncanny-Smile-Problem komplett, weil das Gesicht nicht mehr frontal fixiert ist.
Denk ganzheitlich. Kleidung, Pose, Licht und Kulisse müssen zusammenpassen. Auf einem Triceratops durch den Dschungel zu reiten verlangt ein Safari-Outfit, kein Stadt-Hemd. Ein Bruch irgendwo im Bild zerstört die Illusion am schnellsten.

1. Cinematic-Founder-Porträt#

Cinematic-Editorial-Porträt des Autors in einem Dusk-Studio mit warmem Rim-Light, erzeugt mit GPT Image 2

A cinematic editorial portrait of this exact man, seated in a softly lit modern studio at dusk, warm rim light from the left, deep teal shadows, shallow depth of field, 85mm lens look. Expression: calm and composed, lips closed, a faint confident half-smile, looking directly into the lens, head straight. [+ identity anchor]

Warum es funktioniert: Warmes Rim-Light plus Teal-Schatten ist ein komplettes cineastisches Lichtrezept, und "ruhig, Lippen geschlossen, leichtes Halb-Lächeln" passt zur nachdenklichen Founder-Stimmung.

2. Sauberer Professional-Headshot#

Heller frontaler Business-Headshot des Autors mit Clamshell-Beauty-Licht, erzeugt mit GPT Image 2

A clean, approachable professional headshot of this exact man. Premium clamshell beauty lighting (a large softbox key above plus soft fill below for clean, even skin) with a subtle rim light separating him from a smooth light-grey studio background, smart-casual dark shirt, bright airy color-accurate look, shot on a medium-format camera, razor-sharp focus on the eyes, crisp catchlights, magazine-grade retouch. Framing: head-on, frontal. Expression: a warm, genuine closed-lip smile, friendly and relaxed, looking directly at camera. [+ identity anchor]

Warum es funktioniert: Clamshell-Licht ist der Standard für saubere, ebenmäßige Beauty-Haut. Hier passt das warme Closed-Lip-Lächeln zum Kontext, also ist es willkommen, der Punkt ist, die Mimik zum Zweck zu passen, nicht Lächeln zu verbieten.

3. Warmes Natural-Window-Porträt#

Warmes Naturlicht-Porträt des Autors am Fenster mit entspanntem Ausdruck, erzeugt mit GPT Image 2

A warm, high-end natural-light portrait of this exact man standing near a large window, soft directional morning daylight wrapping his face from the side with gentle falloff into soft shadow, a clean softly-blurred warm-neutral interior behind, 85mm lens, shallow depth of field, lifestyle-editorial. Framing: tight head-and-shoulders, frontal. Expression: natural, relaxed and genuinely warm, a soft authentic micro-smile with friendly approachable eyes, completely at ease and candid, relaxed brow, lifelike and human, NOT stiff, NOT posed, NOT stern. [+ identity anchor]

Warum es funktioniert: Das ist Lektion 3 in Aktion. Die frühere Version, nur als "relaxed and thoughtful" angewiesen, kam steif heraus. "Soft authentic micro-smile, relaxed brow, not posed" auszuformulieren machte daraus einen echten, entspannten Menschen.

4. Outdoor-Tageslicht-Porträt#

Natürliches Outdoor-Tageslicht-Porträt des Autors mit grünem Park-Bokeh, erzeugt mit GPT Image 2

A natural outdoor daylight portrait of this exact man, soft bright daylight on an overcast-clear day, a clean softly-blurred background of green park foliage and out-of-focus city greenery with gentle bokeh, casual smart-casual outfit, fresh and bright, 85mm lens, shallow depth of field, lifestyle-editorial. Framing: head-and-shoulders, frontal. Expression: natural and relaxed, a genuine warm micro-smile, friendly soft eyes, completely at ease and candid, relaxed brow, lifelike. [+ identity anchor]

Warum es funktioniert: Helles, bedecktes Tageslicht ist das verzeihendste Licht überhaupt, und der grüne Bokeh-Hintergrund liest sich sofort als "draußen", ganz ohne benanntes Wahrzeichen. Gleiches Natürlichkeits-Rezept wie beim Fensterbild.

5. Just for Fun: auf einem Triceratops#

Humorvolle cineastische Aufnahme des Autors im Safari-Outfit auf einem Triceratops in einem Urzeit-Tal, erzeugt mit GPT Image 2

A cinematic, playful adventure shot of this exact man riding a large friendly Triceratops across a lush prehistoric valley at golden hour. He sits upright, his upper body squarely toward the camera, head naturally aligned on his shoulders, grinning with delight, both hands holding a rope rein. Wardrobe to match the scene: a rugged khaki safari outfit, a rolled-sleeve beige field shirt, and a wide-brim safari hat tilted back so his face and round glasses stay visible. Sweeping mountains and giant ferns behind, pterosaurs in the distance, epic fantasy-movie-poster look, golden-hour volumetric light, 35mm wide shot. [+ identity anchor]

Warum es funktioniert: Das ist der eigentliche Sinn von Charakter-Konsistenz und der größte Spaß damit. Ein Gesicht, das das Modell wirklich gelernt hat, kann auf einem Dinosaurier reiten und ist trotzdem unverkennbar du. Zwei Handwerks-Punkte lassen es funktionieren: Die weite Action-Perspektive heißt, der Ausdruck muss kein frontal fixiertes Lächeln sein, also kippt nichts ins Uncanny. Und die Kleidung wurde an die Szene angepasst, ein Safari-Outfit statt des Alltags-Hemds aus dem ersten Versuch, denn niemand reitet im Stadt-Hemd auf einem Triceratops. Denk ans ganze Bild, nicht nur ans Gesicht.

10 weitere Stile, 10 weitere Prompts#

Über Porträts hinaus hier zehn allgemeine Stilrichtungen. Jedes Bild ist gpt-image-2 in hoher Qualität, und der Prompt steht vollständig da, damit du ihn kopieren, anpassen und die Methode in Aktion sehen kannst.

1. Fotorealistisches Porträt#

Fotorealistisches Studio-Porträt eines wettergegerbten Fischers im Navy-Wollpullover, erzeugt mit GPT Image 2

Soft north-facing window light filling a quiet studio with pale grey walls. A 60-year-old fisherman with weathered, deeply lined skin and a short white beard, looking just off camera, wearing a worn navy wool sweater. Fine skin texture with visible pores, catchlights in the eyes, individual beard hairs, shallow depth of field. Full-frame camera with an 85mm lens at f/1.8, soft background falloff, neutral natural color grade. Photorealistic. No text, no watermark.

Warum es funktioniert: zuerst die Szene (Fensterlicht, graues Studio), dann das Subjekt, dann die Detail-Modifizierer, dann die Constraints. Die Objektiv-Zeile leistet die Schwerarbeit: "85mm at f/1.8" bringt schmeichelhafte Kompression und einen weichen Hintergrund gratis, und "visible pores, catchlights, individual beard hairs" erzwingt echte Textur statt Plastikhaut.

2. Cinematic Film Still#

Cinematic-anamorphes Filmstandbild einer Figur im Mantel in einer regennassen Neon-Gasse, erzeugt mit GPT Image 2

A rain-soaked neon alley in a dense night city, shallow puddles reflecting magenta and cyan signage. A lone figure in a long charcoal coat walking away from camera, backlit by a distant streetlight, atmospheric haze drifting through the frame. Anamorphic widescreen framing, teal and orange grade, volumetric light shafts, 40mm lens feel, subtle film grain. Cinematic film still, moody and quiet. No text, no watermark.

Warum es funktioniert: die Stimmung kommt aus benannten Begriffen der Filmsprache, nicht aus Adjektiven. "Anamorphic widescreen", "teal and orange grade", "volumetric light" und "film grain" sind konkrete Anweisungen, die ein Colorist erkennt. Gegenlicht plus Dunst erzeugt Tiefe, die das Modell tatsächlich platzieren kann.

3. Studio-Produktshot#

Studio-E-Commerce-Produktshot mattschwarzer Over-Ear-Kopfhörer auf grauem Verlauf, erzeugt mit GPT Image 2

A clean seamless light-grey studio backdrop with a soft gradient. A matte-black wireless over-ear headphone floating at a slight three-quarter angle, brushed aluminium hinges and soft rubber earcups. Crisp softbox key light from upper left, a subtle cool rim light, gentle contact shadow beneath. 100mm macro feel, tack-sharp focus, e-commerce hero composition with generous negative space. Photoreal product render. No text, no watermark.

Warum es funktioniert: Produktfotografie ist ein Lichtproblem. Die Richtung des Hauptlichts, ein Kantenlicht und ein Kontaktschatten zu benennen, gibt dem Modell ein echtes Lichtsetup. "Generous negative space" lässt Platz für eine spätere Headline, genau so werden Hero-Bilder eingesetzt.

4. Stilisiertes 3D-Render#

Gemütliches isometrisches 3D-Diorama eines Cafés mit warmem Innenlicht, erzeugt mit GPT Image 2

A plain pastel-mint background. A cozy miniature isometric coffee-shop diorama with rounded friendly shapes, a tiny barista character, warm interior glow spilling from the windows, tiny plants and stacked cups. Soft global illumination, subsurface-scattering materials, gentle ambient occlusion, octane-style 3D render, shallow depth of field. Charming and clean. No text, no watermark.

Warum es funktioniert: Render-Engine-Vokabular ("global illumination", "subsurface scattering", "ambient occlusion", "octane-style") gibt dem Modell den ganzen Look in vier Wörtern. "Isometric" und "miniature diorama" fixieren Kamera und Maßstab, damit es nicht zu einer flachen Illustration abdriftet.

5. Anime / Cel-Illustration#

Anime-Cel-Illustration eines Mädchens auf einer windigen Klippe über dem Meer, erzeugt mit GPT Image 2

Late-afternoon golden sunlight across a grassy clifftop overlooking the sea. A teenage girl in a school uniform holding her sun hat against the wind, hair and skirt billowing, expressive large eyes. Crisp cel shading, bold clean linework, painterly cumulus cloud background, vibrant saturated palette, modern anime film aesthetic. 2D illustration. No text, no watermark.

Warum es funktioniert: "cel shading" und "bold clean linework" fixieren die Render-Technik, während der arbeitende Wind (festgehaltener Hut, wehende Haare und Rock) die Bewegung und Emotion hinzufügt, die Anime-Frames lebendig machen. Die Constraint "2D illustration" verhindert ein Abrutschen ins 3D.

6. Flache Editorial-Illustration#

Flache geometrische Editorial-Illustration einer remote arbeitenden Person am Schreibtisch, erzeugt mit GPT Image 2

A warm cream background. A flat-design editorial illustration about remote work: a person at a tidy desk with a laptop, a small plant and a coffee cup, built from simple geometric shapes and a limited four-color palette of terracotta, teal, mustard and off-white. Subtle paper grain, no gradients, clean negative space, modern magazine illustration style. Vector flat illustration. No text, no watermark.

Warum es funktioniert: eine exakte Palette zu benennen (vier Farben) und Verläufe zu verbieten, trennt sauberes Flat Design von matschiger KI-Illustration. "Simple geometric shapes" plus "no gradients" ist eine harte Constraint, die das Modell respektiert, und "subtle paper grain" fügt die Editorial-Textur hinzu.

7. Architektur / Interior#

Fotorealistisches sonnendurchflutetes skandinavisches minimalistisches Wohnzimmer, erzeugt mit GPT Image 2

A sunlit Scandinavian living room mid-morning, large windows with sheer curtains diffusing soft daylight. Light oak floors, a pale linen sofa, a single arched brass floor lamp, one large muted abstract canvas, a monstera plant. Calm minimalist composition, realistic soft shadows, warm neutral palette, wide architectural framing with a 24mm lens. Photoreal interior. No text, no watermark.

Warum es funktioniert: Interiors stehen und fallen mit der Lichtqualität und einer kurzen, konkreten Objektliste. "Sheer curtains diffusing soft daylight" setzt die ganze Stimmung; fünf Objekte zu nennen (und nicht mehr) hält den Raum aufgeräumt. Das 24mm-Objektiv gibt die weite, ehrliche Bildaufteilung, die Immobilienfotos nutzen.

8. Food-Makro#

Overhead-Food-Makro eines mit Sirup übergossenen Pfannkuchenstapels mit Blaubeeren, erzeugt mit GPT Image 2

An overhead macro of a fresh stack of fluffy pancakes on a rustic ceramic plate, glossy maple syrup running down the sides, a melting pat of butter on top, a few scattered blueberries. Soft diffused daylight from the left, dewy condensation, rich shallow depth of field, appetizing warm tones. 100mm macro, food-photography styling on a weathered wood table. Photoreal. No text, no watermark.

Warum es funktioniert: Appetit ist Detail. "Glossy syrup running down the sides", "melting pat of butter" und "dewy condensation" sind die konkreten Reize, die als frisch und essbar gelesen werden. Weiches gerichtetes Tageslicht plus 100mm-Makro ist das Standard-Rezept der Food-Fotografie, schlicht ausgesprochen.

9. Surreale Concept Art#

Surreales Matte Painting riesiger transluzenter Quallen über einer Dämmerungswüste, erzeugt mit GPT Image 2

A vast desert at dusk where enormous translucent jellyfish drift through the sky like silent airships, trailing soft blue bioluminescent light. A tiny lone traveler with a lantern stands on a dune looking up, conveying awe and scale. Painterly concept-art rendering, dramatic dusk gradient, deep atmospheric perspective, cinematic color. Digital matte painting. No text, no watermark.

Warum es funktioniert: Maßstab braucht einen Anker. Der "tiny lone traveler" gegen die "enormous jellyfish" macht die surreale Idee lesbar, und "deep atmospheric perspective" weist das Modell an, entfernte Elemente auszublenden, damit die Tiefe wirkt. Der Vergleich ("like silent airships") leitet die Form, ohne sie zu überbestimmen.

10. Typografisches Poster (Demo für korrekten Text)#

Retro-modernes Reiseposter mit GPT IMAGE 2 und PROMPT LIKE A PRO über einer Sonnenaufgangs-Bergkette, erzeugt mit GPT Image 2

A bold retro-modern travel poster with a stylized mountain range at sunrise in layered warm gradients. Centered headline text in large condensed sans-serif reading "GPT IMAGE 2", and a smaller line beneath reading "PROMPT LIKE A PRO". Clean vintage screen-print aesthetic, limited palette of burnt orange, cream and deep teal, balanced symmetrical composition, crisp legible typography. Poster illustration with accurate text. No watermark.

Warum es funktioniert: das ist Regel 4 in Aktion. Die wörtlichen Strings stehen in Anführungszeichen und GROSSBUCHSTABEN, die Typografie ist angegeben ("large condensed sans-serif", "centered", "smaller line beneath"), und die Qualität ist hoch, was OpenAI für lesbaren Text empfiehlt. Text-Rendering war früher das, woran KI-Bildmodelle am härtesten scheiterten; ihn explizit zu zitieren ist der Weg, ihn richtig zu bekommen.

Das ultimative Editorial-Bild, und das Detail, das es verkauft#

Alles oben, das Fotografen-Toolkit, das Extrem-Detail-Vokabular, die Kompositionsregeln, läuft hier zusammen. Ein High-Fashion-Beauty-Cover, komplett aus dem Datenblatt-Ansatz gebaut: benannte Beauty-Beleuchtung, ein 105mm-Objektiv, eine bewusste Farbwelt und eine kurze Liste der richtigen Textur-Hinweise.

High-Fashion-Vogue-Beauty-Editorial-Porträt mit Graphic-Liner, glossy Lippen und dramatischer Beauty-Beleuchtung, erzeugt mit GPT Image 2

A high-fashion Vogue editorial beauty portrait of a striking model with sculpted cheekbones and flawless luminous skin, bold avant-garde makeup (graphic eyeliner, glossy lips), wet-look slicked-back dark hair, a single sculptural statement earring. Dramatic yet refined beauty lighting: a large beauty dish key with clamshell fill and twin edge rim lights, deep controlled shadows, glossy editorial finish. Tight head-and-shoulders, 105mm lens at f/4, shallow depth of field, clean seamless backdrop in a bold deep-oxblood tone. Extreme detail: fine skin texture and pores visible under the makeup, individually separated eyelashes, a detailed iris with crisp catchlights, fine flyaway hairs, natural skin retained, not airbrushed, not waxy. Premium magazine color grade, impeccable composition, ultra-realistic, shot for a fashion magazine cover. No text, no watermark.

Warum es funktioniert: Jede Teilangabe ist eine echte Anweisung. "Beauty dish key with clamshell fill and twin edge rim lights" ist ein komplettes Lichtkonzept. "105mm at f/4" setzt Kompression und Schärfeabfall. "Deep-oxblood backdrop" gibt eine Farbidentität. Und die Detail-Zeile hält Textur unter dem Make-up, der Unterschied zwischen glattem Render und glaubwürdigem Gesicht.

Die Details, die es verkaufen#

Realismus entscheidet sich in den Close-ups. Diese vier Makros, gleiche Welt, gleiche Prompt-Disziplin, sind der Ort, an dem Extrem-Detail seinen Wert beweist.

	Detail-Studie	Worauf es ankommt
Makro eines Auges mit Graphic-Liner, detaillierter Iris und einzelnen Wimpern	Auge	Detaillierte Iris mit Limbal-Ring und radialen Fasern, scharfes Catchlight, feuchte Tränenlinie, einzeln getrennte Wimpern, Poren unter dem Make-up.
Makro glossy Oxblood-Lippen mit Wet-Highlights und natürlicher Lippentextur	Lippen	Nasse Gloss-Highlights, feine vertikale Lippenlinien, taufrische umliegende Haut mit sichtbaren Poren, weicher Amorbogen.
Editorial-Makro eleganter Hände mit Oxblood-Maniküre und skulpturalem Goldring auf drapierter Seide	Hände	Hände sind der KI-Klassiker-Fehler, also überspezifizieren: "exactly five slender fingers each, natural knuckle creases, delicate veins". Ring und Maniküre machen es editorial.
Makro von Couture-Stoffen: schwarze Seide, Gold-Pailletten und anthrazit Bouclé-Wolle	Couture-Stoff	Jedes Material benannt und platziert (Seidensatin, Gold-Pailletten, Bouclé), "individual threads, sequin facets and weave", streifendes Licht für die dritte Dimension.

Die Lektion des ganzen Meisterkurses in einer Zeile: beschreibe das Foto, nicht das Gefühl. Licht, Objektiv, Komposition und ein paar präzise Texturen schlagen jeden Adjektiv-Berg, jedes Mal.

Info

Was dieser Beitrag nicht abdeckt: genaue Release-Daten, die aktuellen ChatGPT-Plus- oder Free-Bildlimits, mehrsprachige Textgenauigkeit und Head-to-Head-Benchmark-Werte gegen Midjourney, Imagen, Flux oder Ideogram. Diese Behauptungen kursieren breit, ließen sich zum Zeitpunkt der Erstellung aber nicht aus verlässlichen Primärquellen bestätigen und bleiben daher bewusst draußen. Preise und Modell-Spezifikationen wurden im Mai 2026 gegen OpenAIs eigene Seiten geprüft und können sich ändern; prüfe die verlinkten Quellen, bevor du darauf aufbaust.

Mehr zu OpenAIs Bild-Linie im DALL-E-Guide. Zum Vergleich der wichtigsten Rivalen von GPT Image 2 lies den Ideogram-Guide und den Midjourney-Guide.

Quellen#

GPT Image 2 Modell-Docs und Prompting-Guide zur Bildgenerierung, OpenAI (geprüft Mai 2026)
OpenAI API-Preise und Entwickler-Preis-Docs
Prompting GPT Image 2, fal.ai

Roland Hentschel

AI & Web Technology Expert

Web developer and AI enthusiast helping businesses navigate the rapidly evolving landscape of AI tools. Testing and comparing tools so you don't have to.