Zwei Konzepte, eine Verwirrung#
Wenn Sie im letzten Jahr Marketing-Seiten fuer ChatGPT, Claude oder Gemini gelesen haben, haben Sie beide Phrasen gesehen: Context Window und Memory. Sie werden oft im gleichen Atemzug verwendet, als wuerden sie dasselbe bedeuten. Das tun sie absolut nicht.
Die beiden zu verwechseln, ist der Grund, warum viele frustriert sind, wenn eine KI Dinge "vergisst", die sie vor fuenf Minuten offenbar wusste, oder warum sie nicht herausfinden koennen, warum eine Konversation nicht mehr so antwortet wie frueher.
Der Unterschied zaehlt, weil er bestimmt, was das Tool tatsaechlich kann und wie Sie Ihre Arbeit strukturieren sollten, um unsichtbare Limits zu vermeiden.
Context Window: kurzfristig, in-Session, begrenzt#
Das Context Window ist alles, was das Modell "sieht", wenn es eine Antwort generiert. Es umfasst:
- Den System-Prompt
- Alle vorherigen Nachrichten in der aktuellen Konversation
- Alle Dateien, Bilder oder Dokumente, die Sie angehaengt haben
- Die Frage, die Sie gerade gestellt haben
- Die Antwort, die das Modell generiert
Context Windows werden in Tokens gemessen. Faustregel: ein Token entspricht etwa 0,75 englischen oder 0,5 deutschen Woertern. GPT-5.4 hat ein 1-Millionen-Token-Kontextfenster. Claude Opus 4.6 auch. Gemini 2.0 hat 2M.
Sobald die Konversation das Context Window fuellt, wird der aelteste Content gedroppt. Das ist nicht immer fuer Sie sichtbar. Die Konversation laeuft weiter, aber das Modell hat keinen Zugriff mehr auf das, was frueher gesagt wurde. Es beginnt zu vergessen, ohne Ihnen das zu sagen.
Entscheidend: Das Context Window wird bei jeder neuen Konversation zurueckgesetzt. Starten Sie einen neuen Chat, und das Modell hat null Wissen ueber jeden vorherigen Chat mit ihm.
Memory: session-uebergreifend, persistent, kuratiert#
Memory ist ein separates System, das ausserhalb des Context Windows existiert. Es ist eine strukturierte Aufzeichnung, in die das Modell schreibt und aus der es liest, ueber verschiedene Konversationen hinweg.
Wenn ChatGPT sagt "Ich werde mir das merken", schreibt es eine kleine Notiz in einen Memory-Speicher, der Ihrem Account zugeordnet ist. Diese Notiz wird in jeder zukuenftigen Konversation in das Context Window geladen, meist als Teil des System-Prompts.
Nicht alles, was Sie sagen, wird gemerkt. Die meisten Plattformen haben zwei Modi:
- Automatisches Memory: Das Modell entscheidet, was aufbewahrt werden sollte ("User bevorzugt kurze Antworten", "User arbeitet an einem SaaS-Launch in Q2")
- Explizites Memory: Sie sagen ihm, sich etwas Spezifisches zu merken
ChatGPT, Claude und Gemini haben jetzt alle Memory-Systeme, aber sie funktionieren unterschiedlich. ChatGPTs ist das aggressivste beim automatischen Merken. Claudes ist konservativer und erfordert meist, dass Sie explizit danach fragen. Geminis ist an Ihren Google-Account-Kontext gebunden und weniger sichtbar.
Memory hat auch Limits, aber sie sind viel kleiner als Context Windows. Wir sprechen von Hunderten oder niedrigen Tausenden Tokens persistentem Memory, nicht Millionen.
Warum Verwechslung zu schlechten Ergebnissen fuehrt#
Hier sind die vier haeufigsten Probleme, die ich sehe, alle verursacht durch Verwechslung der beiden.
Problem 1: "Warum hat es vergessen, was ich ihm vor 30 Minuten gesagt habe?"#
Wenn Sie es in derselben Konversation gesagt haben, und die Konversation lang genug ist, dass das Context Window voll wurde, hat das Modell es verloren. Das ist kein Memory, das scheitert. Es ist das Context Window, das seine Arbeit macht.
Fix: Fuer alles, was Sie ueber eine lange Konversation bewahrt haben wollen, speichern Sie es selbst in einer Datei oder persistenten Notiz und fuegen es bei Relevanz erneut ein.
Problem 2: "Warum erinnert es sich an Dinge von letzter Woche?"#
Memory, nicht Kontext. Das Modell hat in einer vorherigen Konversation etwas Erhaltenswertes notiert, und es taucht in der aktuellen auf. Sie koennen diese Erinnerungen in den Einstellungen der meisten modernen Tools ansehen und loeschen.
Fix: Auditieren Sie Ihr Memory regelmaessig. Alte Memories koennen aktuelle Konversationen auf unerwartete Weise verunreinigen.
Problem 3: "Ich habe ihm meine Markenrichtlinien dreimal gesagt und es ignoriert sie weiter"#
Wenn Sie es dreimal ueber drei separate Konversationen gesagt haben, hat das Modell nichts gelernt. Jede Konversation startete frisch. Was Sie wollen, ist entweder:
- Ein persistenter System-Prompt (Custom Instructions in ChatGPT, Projects in Claude)
- Oder Memory-Eintraege, die die Richtlinien erfassen
Fix: Packen Sie dauerhaften Kontext an den richtigen Ort. Custom Instructions und Projects sind die richtige Antwort fuer Brand Voice, Rollen-Praeferenzen und wiederkehrende Constraints.
Problem 4: "1 Million Token Kontext heisst, ich kann meine gesamte Codebase hochladen, oder?"#
Ja, aber mit Sternchen. Attention degradiert ueber sehr lange Kontexte. Das Modell hat technisch Zugriff auf alles, aber seine Faehigkeit, Informationen aus der Mitte eines 900.000-Token-Kontexts zu nutzen, ist messbar schwaecher als Informationen am Anfang oder Ende.
Fix: Fuer sehr lange Kontexte zaehlt Struktur. Wichtigste Informationen nach oben, die Frage nach unten, und explizite Referenz auf spezifische Abschnitte beim Fragen.
Wie man beide tatsaechlich nutzt#
Das funktionierende mentale Modell: Kontext ist fuer "was wir jetzt gerade tun", Memory ist fuer "wer ich bin und wie ich arbeite".
Context Window:
- Die aktuelle Aufgabe
- Die Dateien, die Sie fuer diese Aufgabe brauchen
- Die Konversationshistorie fuer diese Aufgabe
- Temporaere Anweisungen
Memory / Custom Instructions / Projects:
- Ihre Rolle, Praeferenzen und Expertise
- Ihr Schreibstil und Ton
- Wiederkehrende Constraints (immer "Sie"-Form, nie Em-Dashes)
- Stabile Projekt-Informationen (Kundennamen, laufende Initiativen)
Wenn Sie diese Trennung sauber halten, verschwinden fast alle "warum hat es vergessen"-Probleme.
Wo jedes Tool tatsaechlich steht#
Schnellreferenz Stand Maerz 2026:
ChatGPT: 1M Token Kontext (Plus und hoeher), aggressives automatisches Memory, Custom Instructions fuer persistente System-Prompts. Memory ist das sichtbarste der drei Plattformen.
Claude: 1M Token Kontext, konservatives Memory, das explizites Opt-in erfordert, Projects fuer persistenten Kontext pro Arbeitsbereich. Projects sind die beste Implementierung von "persistentem Kontext", die ich genutzt habe. Siehe den Claude-Guide.
Gemini: 2M Token Kontext, Memory an Google-Account-Kontext gebunden, weniger granulare Kontrolle als die anderen zwei. Das Context Window ist auf dem Papier am groessten, aber praktische Nuetzlichkeit jenseits von ~500K Tokens faellt spuerbar ab.
Cursor und andere Coding-Tools: Kontext ist meist die IDE-Sicht auf Ihr Projekt, was kleiner ist, als die rohen Token-Limits vermuten lassen, weil sie aggressiv trunkieren, um responsive zu bleiben.
Fuer eine tiefere Aufschluesselung, wie jedes Tool das handhabt, deckt unser ChatGPT vs Claude-Vergleich die praktischen Unterschiede im Alltag ab.
Das Takeaway#
Behandeln Sie das Context Window wie Kurzzeit-Arbeitsgedaechtnis in Ihrem eigenen Kopf: alles, was Sie gerade halten, begrenzt, wird geflusht, wenn die Aufgabe endet. Behandeln Sie KI-Memory wie Ihre Notizen am Whiteboard: kleiner, dauerhaft, aber nur nuetzlich, wenn Sie sie kuratieren.
Die beiden zu verwechseln, ist die einzige haeufigste Quelle von KI-Tool-Frustration, die ich sehe. Das zu fixen, macht das Tool nicht faehiger, aber es laesst es sich dramatisch zuverlaessiger anfuehlen.
