chandra
datalab-to
Hochgenaue Dokumenten-Digitalisierung (OCR/Layout) mit offenem Code und einem open-weight-Modell.
Was ist chandra?
Ein OCR-/Dokumentenmodell von den Machern von Marker und Surya (Datalab). Es wandelt Bilder und PDFs in strukturiertes HTML, Markdown oder JSON um und bewahrt dabei das Layout, über 90+ Sprachen hinweg, inklusive komplexer Tabellen, Formulare und Handschrift.
Vor- & Nachteile
Pros
- Sehr breit: Tabellen, Formulare, Handschrift, 90+ Sprachen
- Nutzbar sowohl lokal (HuggingFace) als auch als gehostete API
- Gestützt von einem etablierten Team (Marker/Surya)
Cons
- Das Modell ist Modified OpenRAIL-M: frei nur für Forschung, persönliche Nutzung und Startups unter $2M, nicht uneingeschränkt OSI-open
- Eine GPU ist für die lokale Nutzung faktisch erforderlich
- Benchmark-Angaben sind selbst berichtet
Lizenz
Apache-2.0 (code) (Open weight, mit Auflagen) - Modell-Lizenz: Modified OpenRAIL-M
Code Apache-2.0, Modell Modified OpenRAIL-M (open weight, mit einer Umsatz-/Nutzungsbedingung). Vor der kommerziellen Nutzung sorgfältig zu prüfen.
Wann interessant
anspruchsvolle Dokumenten-Digitalisierung mit GPU oder via API.
Wann zu früh
kommerzielle Eigennutzung oberhalb der $2M-Schwelle. Datalab bietet eine managed API (pay-per-page, $5 Gratis-Credits), aber wir fanden dafür kein öffentliches Affiliate-Programm.
Kommerzielle Alternative & Verwandtes
- Kommerzielles Pendant: Datalab API
Dieses Repo war in der Ausgabe 2026-06 des Open-Source-KI-Radars.
langextract
Python-Bibliothek von Google für LLM-gestützte strukturierte Extraktion mit Source Grounding.
LEANN
StarTrail-org
RAG auf allem - graphbasierter Vektorindex mit behaupteten 97% Storage-Einsparungen für private On-Device-Suche.
turbovec
RyanCodrai
Rust-Vektorindex mit TurboQuant-Kompression (ICLR 2026) - SIMD-Kernel, Online-Ingest.