OSI-openLokale Inference und "was läuft auf meiner Maschine"

vllm-mlx

waybarrios

vLLM-artiger lokaler Server für Apple Silicon, der sowohl die OpenAI- als auch die Anthropic-API spricht, mit Multimodal.

1.4k Stars(Stand 2026-06-26)Auf GitHub ansehen

Überblick

Was ist vllm-mlx?

Ein vLLM-artiger lokaler Inference-Server für Apple Silicon, der OpenAI- und Anthropic-kompatible APIs gleichzeitig bereitstellt und LLMs sowie Vision-Language-Modelle auf einem nativen MLX/Metal-Backend laufen lässt. Er ergänzt Continuous Batching, Paged- und Prefix-KV-Caching, MCP-Tool-Calling, strukturierten JSON-Output und Multimodal-Support (Bild, Video, Audio) und funktioniert als Claude-Code-Backend.

Analyse

Vor- & Nachteile

Pros

Ein Server spricht sowohl die OpenAI- als auch die Anthropic-API, ein Drop-in für Claude Code und OpenAI-SDK-Clients
Produktionsartige Serving-Features (Continuous Batching, Paged/Prefix-Cache, Metriken), selten in MLX-Projekten
Echtes Multimodal: LLMs, Vision-Language-Modelle plus TTS und STT in einem Server

Cons

Nur Apple Silicon, kein NVIDIA-, CPU- oder Cross-Platform-Weg
Vor 1.0 (v0.3.0), APIs und Stabilität reifen noch
Plakative Tokens-pro-Sekunde-Werte sind selbstberichtet und hardwarespezifisch

Lizenz

Apache-2.0 (OSI-open)

Wann interessant

ein OpenAI- und Anthropic-kompatibler lokaler Endpoint, um LLMs und Vision-Language-Modelle auf Apple Silicon zu fahren, z.B. als Claude-Code-Backend.

Wann zu früh

wenn du Produktionsstabilität oder Nicht-Apple-Hardware brauchst; es ist vor 1.0 und Metal-gebunden.

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.

Ähnliche Repositories

oMLX

jundot

16.6k

macOS-nativer LLM-Inference-Server für Apple Silicon mit Continuous Batching und SSD-gestütztem KV-Cache.

OSI-openLokale Inference und "was läuft auf meiner Maschine"

apfel

Arthur-Ficial

5.8k

Das On-Device-Apple-Intelligence-Modell auf macOS 26 als Zero-Setup-OpenAI-kompatible lokale API verfügbar machen.

OSI-openLokale Inference und "was läuft auf meiner Maschine"

shimmy

Michael-A-Kuykendall

5.3k

Lokale Inference-Engine in reinem Rust mit OpenAI-kompatibler API, als eine Binary.

OSI-openLokale Inference und "was läuft auf meiner Maschine"