Skip to main content
AI Tool Radar
OSI-openOffene Voice und Text-to-Speech

VoxCPM

OpenBMB

Tokenizer-freies TTS-System von OpenBMB für 30 Sprachen mit Voice Design und Echtzeit-Streaming.

26.1k Stars(Stand 2026-06-05)Auf GitHub ansehen

Was ist VoxCPM?

Ein tokenizer-freies TTS-System von OpenBMB. VoxCPM2 (2B Parameter) deckt 30 Sprachen inklusive Deutsch ab, unterstützt Voice Design aus einer Textbeschreibung (kein Referenz-Audio) und streamt in Echtzeit.

Vor- & Nachteile

Pros

  • Apache-2.0 inklusive der Weights, echt frei für kommerzielle Nutzung
  • 30 Sprachen mit Voice Design und Cloning
  • Dedizierte Inference-Engines mit einem OpenAI-kompatiblen Audio-Endpoint

Cons

  • Braucht eine GPU (~8 GB VRAM, CUDA 12+); Linux ist das primäre Ziel
  • Das README selbst weist darauf hin, dass Voice-Design-Ergebnisse zwischen Durchläufen variieren
  • Der Echtzeit-Faktor hängt stark von der Hardware ab

Lizenz

Apache-2.0 (OSI-open)

Wann interessant

Self-Hoster mit GPU, die echte kommerzielle Freiheit wollen.

Wann zu früh

reine CPU-Setups oder jeder, der eine managed API braucht.

Dieses Repo war in der Ausgabe 2026-06 des Open-Source-KI-Radars.