Skip to main content
AI Tool Radar
OSI-openLokale Inference und "was läuft auf meiner Maschine"

vllm-mlx

waybarrios

vLLM-artiger lokaler Server für Apple Silicon, der sowohl die OpenAI- als auch die Anthropic-API spricht, mit Multimodal.

1.4k Stars(Stand 2026-06-26)Auf GitHub ansehen

Was ist vllm-mlx?

Ein vLLM-artiger lokaler Inference-Server für Apple Silicon, der OpenAI- und Anthropic-kompatible APIs gleichzeitig bereitstellt und LLMs sowie Vision-Language-Modelle auf einem nativen MLX/Metal-Backend laufen lässt. Er ergänzt Continuous Batching, Paged- und Prefix-KV-Caching, MCP-Tool-Calling, strukturierten JSON-Output und Multimodal-Support (Bild, Video, Audio) und funktioniert als Claude-Code-Backend.

Vor- & Nachteile

Pros

  • Ein Server spricht sowohl die OpenAI- als auch die Anthropic-API, ein Drop-in für Claude Code und OpenAI-SDK-Clients
  • Produktionsartige Serving-Features (Continuous Batching, Paged/Prefix-Cache, Metriken), selten in MLX-Projekten
  • Echtes Multimodal: LLMs, Vision-Language-Modelle plus TTS und STT in einem Server

Cons

  • Nur Apple Silicon, kein NVIDIA-, CPU- oder Cross-Platform-Weg
  • Vor 1.0 (v0.3.0), APIs und Stabilität reifen noch
  • Plakative Tokens-pro-Sekunde-Werte sind selbstberichtet und hardwarespezifisch

Lizenz

Apache-2.0 (OSI-open)

Wann interessant

ein OpenAI- und Anthropic-kompatibler lokaler Endpoint, um LLMs und Vision-Language-Modelle auf Apple Silicon zu fahren, z.B. als Claude-Code-Backend.

Wann zu früh

wenn du Produktionsstabilität oder Nicht-Apple-Hardware brauchst; es ist vor 1.0 und Metal-gebunden.

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.