pinchtab
pinchtab
Self-hosted Browser-Control-Server, über den mehrere Agenten Chrome per Accessibility-Refs statt Screenshots steuern.
Was ist pinchtab?
Ein eigenständiger lokaler HTTP-Server (eine kleine Go-Binary), der KI-Agenten Chrome-Steuerung über eine REST-API plus MCP-Server gibt und dabei Accessibility-first Element-Referenzen und Textextraktion statt Screenshots und Koordinaten nutzt. Er orchestriert mehrere isolierte Headed- oder Headless-Chrome-Instanzen mit persistenten Profilen und bindet standardmäßig an localhost.
Vor- & Nachteile
Pros
- Token-effiziente Accessibility- und Textextraktion statt Screenshots, senkt die Kosten pro Schritt
- Eine einzelne self-contained Go-Binary ohne externe Abhängigkeiten, standardmäßig local-first
- Mehrere isolierte Profile mit persistenten Sessions, plus REST-API und MCP-Server
Cons
- Vor 1.0 (v0.13.x), API und Verhalten können sich noch ändern
- Die Kosten- und Geschwindigkeitsvorteile sind unverifizierte Projekt-Benchmarks
- Es bringt einen optionalen Fingerprint-Evasion-Modus, der Dual-Use- und ToS-Fragen aufwirft und bei Exposition sorgfältiges Hardening braucht
Lizenz
MIT (OSI-open)
Wann interessant
eine schnelle, token-arme, self-hosted Browser-Control-Ebene, die sich mehrere lokale Agenten ohne Pro-Schritt-Screenshot-Kosten teilen.
Wann zu früh
wenn du eine eingefrorene 1.0-API oder erstklassigen Windows-Support brauchst.
Kommerzielle Alternative & Verwandtes
- Kommerzielles Pendant: Browserbase
Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.
UI-TARS-desktop
bytedance
Native Desktop-App für einen GUI-/Computer-Use-Agent, angetrieben vom open-weight-Modell UI-TARS.
strix
usestrix
Framework autonomer 'KI-Hacker'-Agents für dynamische Anwendungssicherheitstests.
Page Agent
alibaba
In-Page-JavaScript-GUI-Agent - jede Webseite mit natürlicher Sprache steuern, kein headless-Browser oder Extension.