OSI-openVektoren, Dokumente und Extraktion

turbovec

RyanCodrai

Rust-Vektorindex mit TurboQuant-Kompression (ICLR 2026) - SIMD-Kernel, Online-Ingest.

11.5k Stars(Stand 2026-06-14)Auf GitHub ansehen

Überblick

Was ist turbovec?

turbovec implementiert Googles TurboQuant-Algorithmus (ICLR 2026) in Rust mit Python-Bindings und handgeschriebenen SIMD-Kerneln (NEON, AVX-512). Es behauptet, ein 10M-Dokument-Korpus von 31 GB auf 4 GB zu komprimieren, mit schnellerer Suche als FAISS in 4-Bit-Konfigurationen (eigene Angabe des Projekts), unterstützt Online-Ingest ohne Trainingsphase und integriert sich mit LangChain, LlamaIndex, Haystack und Agno.

Analyse

Vor- & Nachteile

Pros

Basiert auf einem peer-reviewed ICLR-2026-Paper
SIMD-optimierter Rust-Core mit ergonomischen Python-Bindings
Keine Trainingsphase - Online-Ingest eignet sich für dynamische Collections

Cons

Einzelentwickler - kein sichtbares Team oder organisatorisches Backing
Beta-Reifegrad und junges Repo - Produktionszuverlässigkeit im großen Maßstab unbewiesen
Kompression-vs.-Recall-Tradeoffs nicht unabhängig benchmarkt

Lizenz

MIT (OSI-open)

Wann interessant

Schnelle semantische Suche über große Korpora (10M+) mit Storage-Budgets, die für volle float32-Embeddings zu eng sind.

Wann zu früh

Anwendungsfälle, die maximalen Recall bei beliebigen Storage-Kosten erfordern, oder eine kommerziell unterstützte Vektor-DB mit SLA.

Kontext

Kommerzielle Alternative & Verwandtes

Kommerzielles Pendant: Pinecone / Zilliz Cloud

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.

Ähnliche Repositories

langextract

google

36.8k

Python-Bibliothek von Google für LLM-gestützte strukturierte Extraktion mit Source Grounding.

OSI-openVektoren, Dokumente und Extraktion

LEANN

StarTrail-org

11.9k

RAG auf allem - graphbasierter Vektorindex mit behaupteten 97% Storage-Einsparungen für private On-Device-Suche.

OSI-openVektoren, Dokumente und Extraktion

chandra

datalab-to

11.1k

Hochgenaue Dokumenten-Digitalisierung (OCR/Layout) mit offenem Code und einem open-weight-Modell.

Open weight, mit AuflagenVektoren, Dokumente und Extraktion