vllm-mlx
waybarrios
vLLM-artiger lokaler Server für Apple Silicon, der sowohl die OpenAI- als auch die Anthropic-API spricht, mit Multimodal.
Was ist vllm-mlx?
Ein vLLM-artiger lokaler Inference-Server für Apple Silicon, der OpenAI- und Anthropic-kompatible APIs gleichzeitig bereitstellt und LLMs sowie Vision-Language-Modelle auf einem nativen MLX/Metal-Backend laufen lässt. Er ergänzt Continuous Batching, Paged- und Prefix-KV-Caching, MCP-Tool-Calling, strukturierten JSON-Output und Multimodal-Support (Bild, Video, Audio) und funktioniert als Claude-Code-Backend.
Vor- & Nachteile
Pros
- Ein Server spricht sowohl die OpenAI- als auch die Anthropic-API, ein Drop-in für Claude Code und OpenAI-SDK-Clients
- Produktionsartige Serving-Features (Continuous Batching, Paged/Prefix-Cache, Metriken), selten in MLX-Projekten
- Echtes Multimodal: LLMs, Vision-Language-Modelle plus TTS und STT in einem Server
Cons
- Nur Apple Silicon, kein NVIDIA-, CPU- oder Cross-Platform-Weg
- Vor 1.0 (v0.3.0), APIs und Stabilität reifen noch
- Plakative Tokens-pro-Sekunde-Werte sind selbstberichtet und hardwarespezifisch
Lizenz
Apache-2.0 (OSI-open)
Wann interessant
ein OpenAI- und Anthropic-kompatibler lokaler Endpoint, um LLMs und Vision-Language-Modelle auf Apple Silicon zu fahren, z.B. als Claude-Code-Backend.
Wann zu früh
wenn du Produktionsstabilität oder Nicht-Apple-Hardware brauchst; es ist vor 1.0 und Metal-gebunden.
Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.
oMLX
jundot
macOS-nativer LLM-Inference-Server für Apple Silicon mit Continuous Batching und SSD-gestütztem KV-Cache.
apfel
Arthur-Ficial
Das On-Device-Apple-Intelligence-Modell auf macOS 26 als Zero-Setup-OpenAI-kompatible lokale API verfügbar machen.
shimmy
Michael-A-Kuykendall
Lokale Inference-Engine in reinem Rust mit OpenAI-kompatibler API, als eine Binary.