OSI-openVektoren, Dokumente und Extraktion

PDF Oxide

yfedoseev

Rust-nativer PDF-Toolkit mit 7 Sprachbindings - Extraktion, Markdown-Konvertierung und ein MCP-Server.

825 Stars(Stand 2026-06-14)Auf GitHub ansehen Homepage

Überblick

Was ist PDF Oxide?

PDF Oxide ist eine Rust-native PDF-Bibliothek für Text-/Bildextraktion, Markdown-/HTML-Konvertierung, Erstellung, Bearbeitung, Zusammenführen, Aufteilen, Wasserzeichen und Formulare. Bindings decken Python, Go, JS/TS, .NET, Java/Kotlin und WebAssembly ab, plus CLI und MCP-Server. Es behauptet 0,8 ms mittlere Verarbeitungszeit pro Dokument, 5-29x schneller als gängige Python-Bibliotheken (eigene Angabe des Projekts), validiert an 3.830 Test-PDFs.

Analyse

Vor- & Nachteile

Pros

Breite Sprachabdeckung (7 Bindings + CLI + MCP) aus einem Rust-Core
70 Releases und 100% Erfolgsrate auf 3.830 diversen PDFs deutet auf echte Zuverlässigkeit hin
MCP-Server ist ein direkter Einstieg für RAG-Dokumenten-Pipelines

Cons

Niedrige Star-Zahl relativ zur Reichweite - Community-Unterstützung und Langlebigkeit weniger belegt
Geschwindigkeitswerte sind selbst berichtet ohne verlinkten unabhängigen Benchmark
Markdown-Qualität bei komplexen Tabellen/mehrspaltigem Layout nicht demonstriert

Lizenz

MIT OR Apache-2.0 (OSI-open)

Wann interessant

Aufbau von Dokumenten-Ingestierungs-Pipelines für RAG, bei denen PDF-Extraktionsgeschwindigkeit und mehrsprachige Unterstützung wichtig sind.

Wann zu früh

Wenn du battle-tested Handling von beschädigten oder gescannten PDFs benötigst - PyMuPDF hat eine größere Edge-Case-Community.

Kontext

Kommerzielle Alternative & Verwandtes

Kommerzielles Pendant: LlamaParse / AWS Textract

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.

Ähnliche Repositories

langextract

google

36.8k

Python-Bibliothek von Google für LLM-gestützte strukturierte Extraktion mit Source Grounding.

OSI-openVektoren, Dokumente und Extraktion

LEANN

StarTrail-org

11.9k

RAG auf allem - graphbasierter Vektorindex mit behaupteten 97% Storage-Einsparungen für private On-Device-Suche.

OSI-openVektoren, Dokumente und Extraktion

turbovec

RyanCodrai

11.5k

Rust-Vektorindex mit TurboQuant-Kompression (ICLR 2026) - SIMD-Kernel, Online-Ingest.

OSI-openVektoren, Dokumente und Extraktion