Was tatsächlich existiert#
Der Local-LLM-Pitch lautet seit zwei Jahren "du kannst dein geschlossenes API-Abo fallenlassen und selbst hosten". Der Pitch reift weiter. Dieser Post ist die verifizierte 2026er-Version — was existiert, was es kostet und was noch nicht funktioniert.
Ich decke drei Flagschiffe ab (Llama 4, DeepSeek V3, Mistral Large 3), die Hosting-Provider-Ökonomie, die Hardware-Realität und die Tooling-Schicht. Alle Zahlen stammen aus zitierten Quellen, nicht aus Schätzungen.
Llama 4 (Meta, April 2025)#
Meta veröffentlichte Llama 4 am 5. April 2025. Die Familie hat drei Mitglieder:
- Scout: 17B aktive Parameter / 16 Experten (109B gesamt), 10M Token Kontext-Fenster
- Maverick: 17B aktive Parameter / 128 Experten (400B gesamt), multimodal
- Behemoth: noch größeres Modell, bei Ankündigung im Training
Das 10M-Kontext-Fenster auf Scout ist real und von Meta berichtet, was es zum längsten Kontext-Fenster eines Open-Weight-Modells macht. Hugging-Face-Release-Notes haben die Implementierungsdetails.
In der Praxis: Scout ist ein starkes Mid-Tier-Modell mit vernünftigen Inferenz-Kosten. Maverick ist multimodal und näher an Frontier-Closed-Modellen bei Benchmarks. Keines hat Claude oder GPT-5 für härteste Aufgaben verdrängt, aber beide sind einsetzbar.
DeepSeek V3 (DeepSeek, Ende 2024 bis 2026)#
DeepSeek V3 (Paper auf arXiv) ist ein 671B-Gesamt / 37B-aktive-Parameter MoE-Modell mit Multi-Head Latent Attention. Die Modellarchitektur ist im Detail dokumentiert und wurde umfassend studiert.
Preise auf der offiziellen DeepSeek-API:
- V3: 0,27 Dollar pro Million Input-Tokens, 1,10 Dollar pro Million Output
- V3.1: 0,15 / 0,75
- V3.2: 0,26 / 0,38
Diese sind niedriger als jedes geschlossene Frontier-Modell um eine deutliche Marge. Der Trade-off ist, dass DeepSeek Claude und GPT-5 bei Tool-Use-Zuverlässigkeit, Long-Context-Kohärenz und Frontier-Instruction-Following hinterherhinkt. Für hochvolumige Aufgaben, bei denen die Preislücke zählt, lohnt sich das leicht. Für komplexe Produktions-Workflows, bei denen Zuverlässigkeit mehr zählt als Kosten, nicht.
Mistral Large 3 (Mistral, Dezember 2025)#
Mistral veröffentlichte Large 3 am 2. Dezember 2025. 675B gesamt / 41B aktive Parameter, ebenfalls MoE. 256K Kontext-Fenster, multimodal und mehrsprachig.
Das ist das aktuelle Mistral-Flagschiff und ersetzt Large 2 (das 123B Dense-Modell von Mitte 2024). Besonders für europäische Sprachen bleibt Mistral die beste Open-Weight-Option, weil die Trainingsdaten-Mischung dafür kalibriert war.
Was Hosting-Provider verlangen#
Für die meisten Leute bedeutet diese Modelle zu laufen, sie über einen Hosting-Provider zu rufen, nicht die Hardware zu kaufen. Inference.nets Vergleich und Togethers Preis-Seite geben verifizierte Zahlen:
- Llama 4 Scout: rund 0,08 Dollar/M Input, 0,30 Dollar/M Output bei den meisten Providern.
- Llama 4 Maverick: rund 0,20 Dollar/M Input, 0,60 Dollar/M Output.
- Together AI, Fireworks, DeepInfra: preislich wettbewerbsfähig.
- Groq: wettbewerbsfähig bei Geschwindigkeit statt Preis, mit deutlich schnellerer Inferenz auf unterstützten Modellen.
Vergleich zu Claude Sonnet 4.6 bei 3/15 Dollar pro Million: Open-Source Llama 4 Scout via Hosting ist rund 40x günstiger bei Output-Tokens. Das ist, wo die "lokale" Ökonomie 2026 tatsächlich herkommt — nicht davon, Hardware selbst zu betreiben, sondern günstigere-pro-Token Open-Modelle via API zu nutzen.
Die Hardware-Realität#
Wenn du tatsächlich auf eigener Hardware laufen willst:
H100 PCIe auf dem Sekundärmarkt: rund 25.000 bis 30.000 Dollar 2026, runter vom 80.000-120.000 Dollar Peak 2023 (ThunderCompute-Preis-Analyse). DGX H100 komplette Systeme laufen 250.000 bis 400.000 Dollar.
RunPod H100: 2,69 Dollar/Stunde on-demand im März 2026. Lambda H100 SXM: 3,78 Dollar/Stunde on-demand (Intuition-Labs-Mietvergleich). Spheron: ab 2,01 Dollar/Stunde.
Für die meisten Workloads schlägt Mieten Kaufen, bis man kontinuierlich läuft. Bei 2,69 Dollar/Stunde für 8 Stunden/Tag, 20 Tage/Monat zahlt man rund 430 Dollar/Monat für dedizierten H100-Zugang. Eine eigene H100 bei 25.000 Dollar amortisiert sich bei dieser Nutzung in rund 5 Jahren — wahrscheinlich länger als die nützliche Lebensdauer der Hardware bei dieser Fortschrittsgeschwindigkeit.
Apple Silicon: ein M4 Max mit 128GB Unified Memory lässt Llama 4 70B in 4-Bit-Quantisierung bei vielleicht 25 Tokens pro Sekunde laufen, nutzbar für Single-User-Workloads. Ollama v0.19 fügte MLX-Support im März 2026 hinzu, was das praktikabler macht.
Die Tooling-Schicht#
Alle drei großen Local-LLM-Tools bleiben 2026 aktiv gepflegt:
- Ollama: v0.19 mit MLX auf Apple Silicon. Ein-Befehl lokales Modell-Hosting.
- LM Studio: noch die einzige voll-ausgestattete GUI-Option. Gut für nicht-technische Nutzer.
- vLLM: v0.11 mit Blackwell-FP4/FP8-Support. vLLM-Omni kam November 2025 für multimodal. Das ist die Produktions-Option.
Jedes davon bringt dich in unter einer Stunde von "ich habe ein Modell heruntergeladen" zu "ich habe einen OpenAI-kompatiblen API-Endpunkt". Das war früher der schwerste Teil. Es ist jetzt gelöst.
Wo die Lücke noch wehtut#
Echte Limitierungen, die 2026 zählen:
Langer Kontext. Llama 4 Scout behauptet 10M Tokens. In der Praxis fängt es deutlich vor dem beworbenen Maximum an zu degradieren. Für Long-Document-Arbeit, die wirklich das volle Fenster braucht, ist Claudes 1M-Kontext mit erprobtem Retrieval-Verhalten noch verlässlicher.
Tool-Nutzung und strukturierter Output. Open-Source-Modelle sind weniger zuverlässig bei JSON-Output, Function Calling mit komplexen Schemata und Multi-Turn-Tool-Unterhaltungen. Für eine Produktions-Pipeline, die tausendfach läuft, kumuliert die Zuverlässigkeitslücke. Für Einzelabfragen ist es okay.
Frontier-Instruction-Following. "Antworte in diesem spezifischen Format, aber nur, wenn der Input diese Bedingungen erfüllt, sonst sag nichts" Instruktionen werden zuverlässiger von Claude 4.7 und GPT-5 gehandhabt als von jedem aktuellen Open-Modell. Nicht um eine riesige Marge, aber genug, um in Produktion zu zählen.
Wo lokal tatsächlich gewinnt#
Privatsphäre und Compliance. Wenn du medizinische Daten, Rechtsdokumente oder DSGVO-beschränktes Material verarbeitest, ist Self-Hosting keine Kostenoptimierung, sondern eine rechtliche Anforderung. Die Ökonomie ist sekundär gegenüber der Tatsache, dass die geschlossenen APIs manche Risk-Reviews einfach nicht bestehen.
Hochvolumige einfache Aufgaben. Klassifikation, Übersetzung, Tagging bei Millionen Calls pro Monat. Bei diesen Volumen schlagen Per-Token-Kosten alles andere, und die Zuverlässigkeitslücke zählt weniger mit Downstream-Validierung.
Custom Fine-Tuning. Wenn du domänenspezifische Daten hast, produziert Fine-Tuning von Llama 4 oder Mistral auf deinen Daten etwas, das die geschlossenen APIs nicht können. Das bleibt der legitimste Grund, 2026 selbst zu hosten.
Edge und Offline. Du kannst Claude nicht von einem Gerät ohne Internet rufen. Du kannst ein 3B- oder 7B-Modell ausliefern, das auf dem Gerät läuft. Das ist eine wachsende Kategorie für Mobile-Apps, Automobil und industrielle Use Cases.
Das Hybrid-Muster#
Nach einem Jahr Testen mein eigener funktionierender Stack:
- Claude Sonnet 4.6 via API für Coding, Schreiben, Long-Context und kundennahe Arbeit.
- Claude Haiku 4.5 für einfache Zusammenfassung bei geringem Volumen.
- Llama 4 Scout via Together AI für Batch-Datenverarbeitung, bei der der 40x-Preisvorteil zählt.
- DeepSeek R1 via API für hochvolumige Reasoning-Aufgaben, bei denen die Preislücke die meiste Qualitätslücke schließt.
- Lokales Mistral 7B auf Mac für privatsphäresensitive Einmal-Jobs.
Monatliche Kosten darüber: rund 130 Dollar bei meiner Nutzung, gegenüber rund 250 Dollar, wenn ich alles auf Frontier-APIs liefe. Die Qualität des Outputs ist gestiegen, weil ich pro Aufgabe besser passende Modelle nutze, nicht gefallen.
Entscheidungsregel#
Hast du Privatsphäre- oder Compliance-Anforderungen? Self-Host oder nutz eine DSGVO-konforme europäische API. Ökonomie ist sekundär.
Fährst du hochvolumige wiederholbare Aufgaben? Nutz ein Open-Source-Modell über Together, Fireworks oder DeepInfra. Du bekommst Kostenersparnis ohne Ops-Last.
Bist du Solo-Dev oder kleines Team mit Allgemein-Arbeit? Bleib bei Claude oder GPT-5 als Standard. Die Kosten eines Abos verblassen gegen die Produktivität, und einen lokalen Stack zu managen ist keine freie Engineering-Zeit.
Bist du spezifisch vom Basteln begeistert? Los geht's. Überzeug dich nur nicht, Geld zu sparen, sobald du deine eigene Zeit einrechnest.
Weiterlesen#
- Der 500-Dollar-KI-Stack, der meine 3.000-Dollar-SaaS-Rechnung ersetzt hat für die breitere Stack-Design-Frage.
- Versteckte Kosten von Credit-basierter KI für die Closed-API-Kostenfallen.
- Reasoning-Modelle: Wann lohnen sie sich? wann Compute überhaupt deployen.
Quellen#
- Llama 4 Release: https://ai.meta.com/blog/llama-4-multimodal-intelligence/
- Llama 4 Hugging Face Notes: https://huggingface.co/blog/llama4-release
- DeepSeek V3 Paper: https://arxiv.org/abs/2412.19437
- DeepSeek API Pricing: https://api-docs.deepseek.com/news/news1226
- Mistral Large 3 Launch: https://techcrunch.com/2025/12/02/mistral-closes-in-on-big-ai-rivals-with-mistral-3-open-weight-frontier-and-small-models/
- Mistral Large 2 Historie: https://mistral.ai/news/mistral-large-2407
- Hosting-Provider-Pricing: https://inference.net/content/llm-api-pricing-comparison/
- Together Pricing: https://www.together.ai/pricing
- H100 Sekundärmarkt-Pricing: https://www.thundercompute.com/blog/nvidia-h100-pricing
- H100 Miet-Vergleich: https://intuitionlabs.ai/articles/h100-rental-prices-cloud-comparison
- Lokales Tooling-Roundup: https://medium.com/@rosgluk/local-llm-hosting-complete-2025-guide-ollama-vllm-localai-jan-lm-studio-more-f98136ce7e4a
