Der Abstand ist geschrumpft, aber lies das Kleingedruckte#
Die große Geschichte bei Open-Weight-Modellen ist echt: Der Abstand zwischen den besten offenen und den besten geschlossenen Modellen ist auf eine Handvoll Benchmark-Punkte zusammengeschrumpft. DeepSeek, Alibaba und Google liefern Modelle, die mit Frontier-Systemen mithalten, und sie veröffentlichen die Gewichte.
Im Kleingedruckten führen die meisten Artikel dich in die Irre. "Open Weights" heißt nicht "läuft auf deinem Laptop". Die offenen Flaggschiffe von 2026 sind Sparse-Mixture-of-Experts-Modelle (MoE) mit hunderten Milliarden bis über einer Billion Parametern. Sie sind offen im Lizenz-Sinne, und sie brauchen ernsthafte Server-Hardware. Die Modelle, die tatsächlich auf einer Workstation laufen, sind die kleinen. Diese beiden Kategorien zu verwechseln ist der häufigste Fehler in diesem Feld, also trennen wir sie sauber.
Die offenen Flaggschiffe 2026 (Server-Klasse)#
Das sind die Schlagzeilen-Releases. Alle sind MoE, das heißt eine große Gesamt-Parameterzahl, aber nur ein Bruchteil aktiv pro Token, also günstiger im Betrieb als ihre Größe vermuten lässt, aber kein Laptop-Material.
DeepSeek V4 erschien am 24. April 2026 als zwei Modelle, beide mit offenen Gewichten unter der MIT-Lizenz. Laut DeepSeeks eigenen Release Notes ist V4-Pro 1,6 Billionen total / 49 Milliarden aktive Parameter und V4-Flash 284 Milliarden total / 13 Milliarden aktiv, beide mit einem Kontextfenster von einer Million Tokens und einer Ausgabe bis 384.000 Tokens. Das ist wohl das stärkste vollständig offene Release des Jahres bei Coding und Reasoning.
Qwen 3.5 von Alibaba kam am 16. Februar 2026. Das Flaggschiff Qwen3.5-397B-A17B trägt 397 Milliarden Gesamt-Parameter mit 17 Milliarden aktiven, auf einer Hybrid-Architektur, mit nativem Kontext bis 262.000 Tokens (erweiterbar Richtung 1 Million). Es ist auf Hugging Face verfügbar und eines der stärksten offenen Modelle für Reasoning und mehrsprachige Arbeit.
Llama 4 ist hier der ältere Spieler, und das gehört dazugesagt. Meta hat die Llama-4-Reihe im April 2025 veröffentlicht: Scout (17 Milliarden aktiv, 16 Experten, ein Aufsehen erregendes 10-Millionen-Token-Kontextfenster) und Maverick (17 Milliarden aktiv, 128 Experten, 400 Milliarden total). Ein Jahr später ist es noch breit im Einsatz und gut unterstützt, aber nicht mehr die frischeste Option, und das zeigt sich auf den neueren Benchmarks.
Der praktische Punkt: Keines davon läuft auf Consumer-Hardware. Um sie selbst zu hosten, mietest oder kaufst du GPU-Server. Für die meisten kleinen Unternehmen heißt das, sie über eine API zu nutzen (DeepSeeks eigene oder einen Hosting-Anbieter), nicht sie selbst zu betreiben.
Was wirklich lokal läuft (Workstation-Klasse)#
Das ist die Kategorie, die zählt, wenn dein Grund für Open Source Datenschutz oder Offline-Nutzung ist.
Gemma 4 ist Googles offene Modellfamilie, veröffentlicht im April 2026. Google nennt es "Byte für Byte das leistungsfähigste offene Modell" und merkt an, dass Gemma inzwischen über 500 Millionen Mal heruntergeladen wurde. Es kommt in mehreren Größen, von einem Modell der etwa 2-Milliarden-Klasse bis rund 31 Milliarden, und die kleineren Varianten sind der Punkt: Sie sind gebaut, um auf einer einzelnen GPU oder einem fähigen Laptop zu laufen. Ein Modell der 30-Milliarden-Klasse mit 4-Bit-Quantisierung will typischerweise 12 bis 16 GB VRAM, was eine Mittelklasse-Workstation-GPU oder ein Apple-Silicon-Rechner mit genug Unified Memory bewältigt.
Neben Gemma füllen die kleineren Qwen-Varianten und Mistrals offene Modelle die lokal lauffähige Stufe. Werkzeuge wie Ollama (ollama run gemma4) und LM Studio haben das Setup wirklich einfach gemacht, das war vor zwei Jahren noch das fehlende Stück.
Der ehrliche Kompromiss: Ein lokales 30-Milliarden-Modell ist gut, nicht Frontier. Es bewältigt Zusammenfassung, Entwürfe, Klassifizierung, strukturierte Extraktion und die meisten Alltagsaufgaben gut. Es erreicht GPT-5.5 oder Claude Opus 4.7 beim schwersten Reasoning oder Coding nicht. Für viel Geschäftsarbeit ist das ein völlig akzeptabler Deal, besonders angesichts dessen, was du dafür bekommst.
Der DACH-Winkel: wann sich lokal lohnt#
Für Unternehmen in Deutschland, Österreich und der Schweiz liegt der Reiz lokaler Modelle selten in der reinen Leistung. Es ist der Datenschutz. Ein Modell auf der eigenen Hardware zu betreiben heißt, dass Kundendaten, Akten, Patientennotizen oder Verträge nie das Haus verlassen. Keine US-Cloud, keine Übermittlungsfrage, kein Drittverarbeiter, den man in einen Vertrag aufnehmen muss.
Das ist ein starkes Argument für regulierte und sensible Arbeit, und wir haben schon früher über lokale LLMs für regulierte Berufe im DACH-Raum geschrieben. Aber sei ehrlich zur Kostenseite:
- Hardware ist eine echte Investition. Ein fähiges lokales Setup (eine Workstation mit 16 bis 24 GB+ VRAM oder ein Apple-Silicon-Rechner mit großem Unified Memory) ist eine vierstellige Anschaffung, plus die Zeit für die Wartung.
- Qualität ist "gut genug", nicht Spitzenklasse. Du tauschst die obersten 10 Prozent an Leistung gegen Kontrolle über deine Daten.
- Compliance ist nicht automatisch. Lokale Verarbeitung hilft beim Datenschutz, macht dich aber nicht von allein DSGVO-konform. Du brauchst weiterhin die Dokumentation, die Rechtsgrundlage und den Rest.
Die Entscheidung lautet nicht abstrakt "offen vs geschlossen". Sie lautet: "Geht es bei diesem konkreten Ablauf um Daten, die ich nicht in eine Cloud schicken kann, und ist ein gut-genug-Modell dafür akzeptabel?" Wenn die Antwort auf beides ja ist, ist ein lokales Gemma oder Qwen auf der eigenen Maschine eine ausgezeichnete Wahl. Wenn die Arbeit allgemein und die Daten nicht sensibel sind, ist ein günstiges gehostetes Modell fast immer schneller, besser und weniger Aufwand.
MoE ist jetzt der Standard, und das ist eine gute Nachricht#
Eine strukturelle Verschiebung, die man verstehen sollte: Fast jedes Flaggschiff-Open-Modell 2026 ist ein Sparse Mixture-of-Experts. Statt alle Parameter für jedes Token zu aktivieren, leitet das Modell jedes Token an eine kleine Teilmenge von "Experten"-Subnetzen. Ein 397-Milliarden-Modell nutzt vielleicht nur 17 Milliarden Parameter pro Token.
Für dich heißt das: Offene Modelle boxen über ihrer scheinbaren Größe bei Kosten und Tempo, bleiben aber groß in der Leistung. Es ist der Hauptgrund, warum der Abstand offen-zu-geschlossen so schnell schrumpfte, und der Hauptgrund, warum selbst die Riesen günstiger zu betreiben sind, als ihre Schlagzeilen-Parameterzahlen vermuten lassen.
Das Fazit#
Open-Weight-KI ist 2026 in bester Verfassung, aber die nützliche Frage ist eng gefasst. Wenn du aus Datenschutzgründen selbst hosten willst, schau auf die kleinen, lokal lauffähigen Modelle (Gemma 4, kleinere Qwen, Mistral) und akzeptiere "gut genug". Wenn du nur günstig Frontier-Leistung willst, nutze die großen offenen Modelle (DeepSeek V4, Qwen 3.5) über eine API, oder vergleiche sie ehrlich gegen ein gehostetes geschlossenes Modell nach Preis und Qualität für deine Aufgabe. Kauf keinen Server, weil ein 1,6-Billionen-Parameter-Modell "gratis herunterladbar" ist. Es ist gratis herunterladbar und teuer im Betrieb.
Quellen#
- DeepSeek V4 Release und Specs: DeepSeek API Release Notes (24. Apr 2026), DeepSeek-V4-Pro auf Hugging Face
- Gemma 4: Google April 2026 AI-Updates
- Llama 4: Metas Llama-4-Ankündigung, Llama-4-Modellseite
- Qwen 3.5: Qwen auf GitHub, Llama 4 Maverick Specs auf LLM-Stats
- Überblick Open-Weight-Landschaft: Hugging Face zu Open-Source-LLMs
