Open weight, mit AuflagenVektoren, Dokumente und Extraktion

chandra

datalab-to

Hochgenaue Dokumenten-Digitalisierung (OCR/Layout) mit offenem Code und einem open-weight-Modell.

11.1k Stars(Stand 2026-06-05)Auf GitHub ansehen

Überblick

Was ist chandra?

Ein OCR-/Dokumentenmodell von den Machern von Marker und Surya (Datalab). Es wandelt Bilder und PDFs in strukturiertes HTML, Markdown oder JSON um und bewahrt dabei das Layout, über 90+ Sprachen hinweg, inklusive komplexer Tabellen, Formulare und Handschrift.

Analyse

Vor- & Nachteile

Pros

Sehr breit: Tabellen, Formulare, Handschrift, 90+ Sprachen
Nutzbar sowohl lokal (HuggingFace) als auch als gehostete API
Gestützt von einem etablierten Team (Marker/Surya)

Cons

Das Modell ist Modified OpenRAIL-M: frei nur für Forschung, persönliche Nutzung und Startups unter $2M, nicht uneingeschränkt OSI-open
Eine GPU ist für die lokale Nutzung faktisch erforderlich
Benchmark-Angaben sind selbst berichtet

Lizenz

Apache-2.0 (code) (Open weight, mit Auflagen) - Modell-Lizenz: Modified OpenRAIL-M

Code Apache-2.0, Modell Modified OpenRAIL-M (open weight, mit einer Umsatz-/Nutzungsbedingung). Vor der kommerziellen Nutzung sorgfältig zu prüfen.

Wann interessant

anspruchsvolle Dokumenten-Digitalisierung mit GPU oder via API.

Wann zu früh

kommerzielle Eigennutzung oberhalb der $2M-Schwelle. Datalab bietet eine managed API (pay-per-page, $5 Gratis-Credits), aber wir fanden dafür kein öffentliches Affiliate-Programm.

Kontext