OSI-openVektoren, Dokumente und Extraktion

PixelRAG

StarTrail-org

Pixel-natives Retrieval: rendert Dokumente als Screenshots und sucht mit einem Vision-Embedding-Modell direkt über die Bilder.

5.4k Stars(Stand 2026-06-26)Auf GitHub ansehen Homepage

Überblick

Was ist PixelRAG?

Ein Retrieval-System, das Dokumente (Webseiten, PDFs, Bilder) als Screenshots rendert und mit einem feinjustierten Vision-Language-Embedding-Modell direkt über die Bilder sucht, statt HTML oder Text zu parsen. Es bringt ein CLI, eine gehostete Such-API über einen vorgebauten Index aus Millionen Wikipedia-Seiten und ein Claude-Code-Plugin und kommt vom selben Berkeley-Lab (StarTrail-org) wie LEANN.

Analyse

Vor- & Nachteile

Pros

Apache-2.0 mit offen veröffentlichtem Code, FAISS-Indizes und LoRA-Adapter-Weights, nicht nur eine API
Glaubwürdige Autorschaft: dasselbe Berkeley-Lab hinter dem bereits vertrauten LEANN
Heute nutzbar mit One-Line-Install plus gehosteter API und Claude-Code-Plugin

Cons

Sehr jung (v0.3.0, ~28 Tage), API- und CLI-Oberfläche werden sich wohl noch ändern
Plakative Genauigkeits- und Kostenzahlen (z.B. +18% gegenüber Text-RAG) sind unverifizierte Projektangaben
Lokales Indexing braucht eine GPU und ein schweres Vision-Modell; der bequeme Weg lehnt sich an den gehosteten Endpoint an

Lizenz

Apache-2.0 (OSI-open)

Wann interessant

Retrieval über visuell reiche Dokumente (Tabellen, Diagramme, Layouts), wo HTML-zu-Text-Parsing Signal verliert.

Wann zu früh

wenn du einen stabilen, versionierten, voll self-hosted Retrieval-Stack brauchst statt eines schnelllebigen v0.x plus gehostetem Index.

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.

Ähnliche Repositories

langextract

google

36.8k

Python-Bibliothek von Google für LLM-gestützte strukturierte Extraktion mit Source Grounding.

OSI-openVektoren, Dokumente und Extraktion

LEANN

StarTrail-org

11.9k

RAG auf allem - graphbasierter Vektorindex mit behaupteten 97% Storage-Einsparungen für private On-Device-Suche.

OSI-openVektoren, Dokumente und Extraktion

turbovec

RyanCodrai

11.5k

Rust-Vektorindex mit TurboQuant-Kompression (ICLR 2026) - SIMD-Kernel, Online-Ingest.

OSI-openVektoren, Dokumente und Extraktion