PDF Oxide
yfedoseev
Rust-nativer PDF-Toolkit mit 7 Sprachbindings - Extraktion, Markdown-Konvertierung und ein MCP-Server.
Was ist PDF Oxide?
PDF Oxide ist eine Rust-native PDF-Bibliothek für Text-/Bildextraktion, Markdown-/HTML-Konvertierung, Erstellung, Bearbeitung, Zusammenführen, Aufteilen, Wasserzeichen und Formulare. Bindings decken Python, Go, JS/TS, .NET, Java/Kotlin und WebAssembly ab, plus CLI und MCP-Server. Es behauptet 0,8 ms mittlere Verarbeitungszeit pro Dokument, 5-29x schneller als gängige Python-Bibliotheken (eigene Angabe des Projekts), validiert an 3.830 Test-PDFs.
Vor- & Nachteile
Pros
- Breite Sprachabdeckung (7 Bindings + CLI + MCP) aus einem Rust-Core
- 70 Releases und 100% Erfolgsrate auf 3.830 diversen PDFs deutet auf echte Zuverlässigkeit hin
- MCP-Server ist ein direkter Einstieg für RAG-Dokumenten-Pipelines
Cons
- Niedrige Star-Zahl relativ zur Reichweite - Community-Unterstützung und Langlebigkeit weniger belegt
- Geschwindigkeitswerte sind selbst berichtet ohne verlinkten unabhängigen Benchmark
- Markdown-Qualität bei komplexen Tabellen/mehrspaltigem Layout nicht demonstriert
Lizenz
MIT OR Apache-2.0 (OSI-open)
Wann interessant
Aufbau von Dokumenten-Ingestierungs-Pipelines für RAG, bei denen PDF-Extraktionsgeschwindigkeit und mehrsprachige Unterstützung wichtig sind.
Wann zu früh
Wenn du battle-tested Handling von beschädigten oder gescannten PDFs benötigst - PyMuPDF hat eine größere Edge-Case-Community.
Kommerzielle Alternative & Verwandtes
- Kommerzielles Pendant: LlamaParse / AWS Textract
Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.
langextract
Python-Bibliothek von Google für LLM-gestützte strukturierte Extraktion mit Source Grounding.
LEANN
StarTrail-org
RAG auf allem - graphbasierter Vektorindex mit behaupteten 97% Storage-Einsparungen für private On-Device-Suche.
turbovec
RyanCodrai
Rust-Vektorindex mit TurboQuant-Kompression (ICLR 2026) - SIMD-Kernel, Online-Ingest.