Skip to main content
AI Tool Radar
OSI-openComputer-Use und autonome Agents

Page Agent

alibaba

In-Page-JavaScript-GUI-Agent - jede Webseite mit natürlicher Sprache steuern, kein headless-Browser oder Extension.

18.5k Stars(Stand 2026-06-14)Auf GitHub ansehenHomepage

Was ist Page Agent?

Page Agent ist eine clientseitige TypeScript-Bibliothek, die in jede Webseite eingebettet wird und LLMs die Steuerung der UI via textbasierter DOM-Manipulation ermöglicht - kein Python, kein headless-Browser, keine Extension erforderlich. Eine optionale Chrome-Extension ermöglicht Multi-Tab-Workflows und ein Beta-MCP-Server ermöglicht Agent-Integration.

Vor- & Nachteile

Pros

  • Null serverseitige Infrastruktur - läuft vollständig in-page, deploybar als script-Tag
  • 32 versionierte Releases mit aktivem CI/CD zeigen produktionsgradig Disziplin
  • Bring-your-own-LLM-Design vermeidet API-Lock-in

Cons

  • Textbasierter DOM-Ansatz kann bei canvas-lastigen oder sehr dynamischen SPAs Schwierigkeiten haben
  • MCP-Server ist noch Beta
  • Alibaba-Herkunft kann in manchen westlichen Organisationen Supply-Chain-Bedenken auslösen

Lizenz

MIT (OSI-open)

Wann interessant

Einbettung eines Natural-Language-Copilots direkt in ein Web-Produkt ohne Backend-Infrastruktur.

Wann zu früh

Du benötigst zuverlässige Multi-Page-Orchestrierung - Multi-Tab-Flows erfordern die Beta-Extension.

Kommerzielle Alternative & Verwandtes

  • Kommerzielles Pendant: Anthropic Computer Use / Browserbase

Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.