OSI-openLokale Inference und "was läuft auf meiner Maschine"

tokenspeed

lightseekorg

Inference-Engine, die einen C++-Scheduler mit CUDA-Kerneln für Hochdurchsatz-Agentic-LLM-Serving kombiniert.

1.5k Stars(Stand 2026-06-26)Auf GitHub ansehen Homepage

Überblick

Was ist tokenspeed?

Eine LLM-Inference-Engine für Agentic-Workloads, die einen C++-Control-Plane-Scheduler mit einer Python-Execution-Plane und austauschbaren CUDA-Kerneln (inklusive einer Multi-Head-Latent-Attention-Implementierung) kombiniert. Sie positioniert sich als 'TensorRT-LLM-Performance bei vLLM-Bedienbarkeit', von der gemeinnützigen LightSeek Foundation.

Analyse

Vor- & Nachteile

Pros

Echtes Low-Level-Engineering (ein eigener C++-Scheduler plus GPU-Kernel), kein dünner Wrapper
MIT-lizenziert und von einer gemeinnützigen Foundation getragen
Ausdrücklich auf Agentic-Hochdurchsatz-Serving ausgelegt

Cons

Zielt auf Top-End-Blackwell/B200-GPUs, daher für die meisten unerreichbar
Die README hat keine In-Repo-Install/Usage und verweist auf externe Docs, eine Reife-Lücke
Flagschiff-Durchsatzzahlen (z.B. 580 Tokens/s) sind selbstberichtet und nicht von Dritten gebenchmarkt

Lizenz

MIT (OSI-open)

Wann interessant

Teams, die große MoE-Modelle auf Datacenter-Blackwell-Hardware servieren und eine hackbare, Kernel-nahe Alternative zu vLLM/TensorRT-LLM wollen.

Wann zu früh

wenn dir Datacenter-GPUs fehlen, du stabile Releases und Docs brauchst oder verifizierte Benchmarks forderst.

Kontext

Kommerzielle Alternative & Verwandtes

Kommerzielles Pendant: NVIDIA NIM

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.

Ähnliche Repositories

oMLX

jundot

16.6k

macOS-nativer LLM-Inference-Server für Apple Silicon mit Continuous Batching und SSD-gestütztem KV-Cache.

OSI-openLokale Inference und "was läuft auf meiner Maschine"

apfel

Arthur-Ficial

5.8k

Das On-Device-Apple-Intelligence-Modell auf macOS 26 als Zero-Setup-OpenAI-kompatible lokale API verfügbar machen.

OSI-openLokale Inference und "was läuft auf meiner Maschine"

shimmy

Michael-A-Kuykendall

5.3k

Lokale Inference-Engine in reinem Rust mit OpenAI-kompatibler API, als eine Binary.

OSI-openLokale Inference und "was läuft auf meiner Maschine"