tokenspeed
lightseekorg
Inference-Engine, die einen C++-Scheduler mit CUDA-Kerneln für Hochdurchsatz-Agentic-LLM-Serving kombiniert.
Was ist tokenspeed?
Eine LLM-Inference-Engine für Agentic-Workloads, die einen C++-Control-Plane-Scheduler mit einer Python-Execution-Plane und austauschbaren CUDA-Kerneln (inklusive einer Multi-Head-Latent-Attention-Implementierung) kombiniert. Sie positioniert sich als 'TensorRT-LLM-Performance bei vLLM-Bedienbarkeit', von der gemeinnützigen LightSeek Foundation.
Vor- & Nachteile
Pros
- Echtes Low-Level-Engineering (ein eigener C++-Scheduler plus GPU-Kernel), kein dünner Wrapper
- MIT-lizenziert und von einer gemeinnützigen Foundation getragen
- Ausdrücklich auf Agentic-Hochdurchsatz-Serving ausgelegt
Cons
- Zielt auf Top-End-Blackwell/B200-GPUs, daher für die meisten unerreichbar
- Die README hat keine In-Repo-Install/Usage und verweist auf externe Docs, eine Reife-Lücke
- Flagschiff-Durchsatzzahlen (z.B. 580 Tokens/s) sind selbstberichtet und nicht von Dritten gebenchmarkt
Lizenz
MIT (OSI-open)
Wann interessant
Teams, die große MoE-Modelle auf Datacenter-Blackwell-Hardware servieren und eine hackbare, Kernel-nahe Alternative zu vLLM/TensorRT-LLM wollen.
Wann zu früh
wenn dir Datacenter-GPUs fehlen, du stabile Releases und Docs brauchst oder verifizierte Benchmarks forderst.
Kommerzielle Alternative & Verwandtes
- Kommerzielles Pendant: NVIDIA NIM
Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.
oMLX
jundot
macOS-nativer LLM-Inference-Server für Apple Silicon mit Continuous Batching und SSD-gestütztem KV-Cache.
apfel
Arthur-Ficial
Das On-Device-Apple-Intelligence-Modell auf macOS 26 als Zero-Setup-OpenAI-kompatible lokale API verfügbar machen.
shimmy
Michael-A-Kuykendall
Lokale Inference-Engine in reinem Rust mit OpenAI-kompatibler API, als eine Binary.