Page Agent
alibaba
In-Page-JavaScript-GUI-Agent - jede Webseite mit natürlicher Sprache steuern, kein headless-Browser oder Extension.
Was ist Page Agent?
Page Agent ist eine clientseitige TypeScript-Bibliothek, die in jede Webseite eingebettet wird und LLMs die Steuerung der UI via textbasierter DOM-Manipulation ermöglicht - kein Python, kein headless-Browser, keine Extension erforderlich. Eine optionale Chrome-Extension ermöglicht Multi-Tab-Workflows und ein Beta-MCP-Server ermöglicht Agent-Integration.
Vor- & Nachteile
Pros
- Null serverseitige Infrastruktur - läuft vollständig in-page, deploybar als script-Tag
- 32 versionierte Releases mit aktivem CI/CD zeigen produktionsgradig Disziplin
- Bring-your-own-LLM-Design vermeidet API-Lock-in
Cons
- Textbasierter DOM-Ansatz kann bei canvas-lastigen oder sehr dynamischen SPAs Schwierigkeiten haben
- MCP-Server ist noch Beta
- Alibaba-Herkunft kann in manchen westlichen Organisationen Supply-Chain-Bedenken auslösen
Lizenz
MIT (OSI-open)
Wann interessant
Einbettung eines Natural-Language-Copilots direkt in ein Web-Produkt ohne Backend-Infrastruktur.
Wann zu früh
Du benötigst zuverlässige Multi-Page-Orchestrierung - Multi-Tab-Flows erfordern die Beta-Extension.
Kommerzielle Alternative & Verwandtes
- Kommerzielles Pendant: Anthropic Computer Use / Browserbase
Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.
UI-TARS-desktop
bytedance
Native Desktop-App für einen GUI-/Computer-Use-Agent, angetrieben vom open-weight-Modell UI-TARS.
strix
usestrix
Framework autonomer 'KI-Hacker'-Agents für dynamische Anwendungssicherheitstests.
Browser Harness
browser-use
Self-Healing-Browser-Harness, der LLMs ermöglicht, einen echten Browser via CDP zu steuern.