agent-device
callstack
CLI, mit dem KI-Agenten echte iOS-, Android-, Desktop- und TV-Apps über Accessibility-Tree-Snapshots steuern und prüfen.
Was ist agent-device?
Ein CLI, mit dem KI-Agenten echte Apps über iOS, Android, tvOS, Android TV, macOS, Linux und Desktop steuern und verifizieren, dazu React Native, Expo und Flutter. Es liefert Accessibility-Tree-Snapshots mit stabilen Element-Referenzen und semantischen Selektoren für den LLM-Kontext, behandelt Taps, Tippen, Scrollen und Gesten, erfasst Belege (Screenshots, Video, Logs, Netzwerk, Traces) und nimmt .ad-Skripte für CI auf oder spielt sie ab.
Vor- & Nachteile
Pros
- Aktiv von Callstack gepflegt (v0.17.10, über 100 Releases) mit breiter Echtgeräte-Abdeckung
- LLM-first: stabile Accessibility-Referenzen und semantische Selektoren, MIT-lizenziert
- Ein Workflow für Mobile, Desktop und TV plus React Native, Expo und Flutter
Cons
- Noch vor 1.0 (0.17.x), CLI und API können sich ändern
- Schwere lokale Voraussetzungen (Xcode, Android SDK/ADB, Node 22/24+), nicht Zero-Config
- Es gibt eine separate kostenpflichtige 'agent-device Cloud', und die Replay-Selbstheilung ist als experimentell gekennzeichnet
Lizenz
MIT (OSI-open)
Wann interessant
du baust KI-Agenten, die echte Mobile-, Desktop- oder TV-Apps bedienen oder verifizieren müssen, auch in CI.
Wann zu früh
wenn du eine eingefrorene, stabile API brauchst oder dich produktionskritisch auf die experimentelle Selbstheilung verlässt.
Kommerzielle Alternative & Verwandtes
- Kommerzielles Pendant: BrowserStack
Dieses Repo war in der Ausgabe 2026-07 des Open-Source-KI-Radars.
UI-TARS-desktop
bytedance
Native Desktop-App für einen GUI-/Computer-Use-Agent, angetrieben vom open-weight-Modell UI-TARS.
strix
usestrix
Framework autonomer 'KI-Hacker'-Agents für dynamische Anwendungssicherheitstests.
Page Agent
alibaba
In-Page-JavaScript-GUI-Agent - jede Webseite mit natürlicher Sprache steuern, kein headless-Browser oder Extension.