UI-TARS-desktop
bytedance
Native Desktop-App für einen GUI-/Computer-Use-Agent, angetrieben vom open-weight-Modell UI-TARS.
Was ist UI-TARS-desktop?
Eine native Desktop-App (Windows/macOS, plus Browser-Build) für einen GUI-/Computer-Use-Agent: Sie macht einen Screenshot, ein Vision-Language-Modell liest die Oberfläche, und der Agent steuert dann Maus und Tastatur aus einer Anweisung in natürlicher Sprache. Angetrieben wird sie vom Open-Weight-Modell UI-TARS (z.B. UI-TARS-1.5-7B, lokal betreibbar) oder ByteDances Seed-Serie und kommt zusammen mit Agent TARS, einem MCP-basierten CLI-/Web-Geschwister, das mit beliebigen Providern arbeitet.
Vor- & Nachteile
Pros
- App und Basismodell (UI-TARS-1.5-7B) sind beide echtes Apache-2.0, kommerziell frei und voll selbst hostbar
- Große, aktive Community (36k+ Stars) mit einem peer-reviewten Paper im Rücken, und Cross-Plattform
- Flexibel: lokal oder Cloud, plus der Agent-TARS-Stack mit MCP und freier Provider-Wahl
Cons
- Das offene 7B-Modell ist Apache-2.0, aber die stärksten Modelle (Doubao-1.5-UI-TARS, Seed-1.5-VL) sind proprietär und kostenpflichtig über ByteDances VolcEngine-API, Top-Performance bedeutet Cloud-Lock-in, und der frei nutzbare Remote Operator wurde im August 2025 eingestellt
- Computer-Use ist von Natur aus riskant: ein Agent mit voller Maus-/Tastatur-/Browser-Kontrolle ist Prompt-Injection und Fehlklicks ausgesetzt, betreibe ihn in einer Sandbox oder VM
- Pre-1.0 (v0.3.0) mit 403 offenen Issues; lokale Hardware-Anforderungen für das 7B-Modell sind nicht dokumentiert
Lizenz
Apache-2.0 (OSI-open)
App und offenes Modell beide Apache-2.0 (OSI-open), aber die leistungsstärksten Modelle sind ein proprietäres, kostenpflichtiges Cloud-Backend.
Wann interessant
ein offener, selbst hostbarer Computer-Use-Agent für Automatisierungs-Experimente.
Wann zu früh
Einsatz ohne Sandbox oder produktiv, oder wenn du die Top-Modelle ohne kostenpflichtigen VolcEngine-Plan brauchst. Die kommerziellen Gegenstücke sind Anthropics Claude Computer Use und OpenAIs Operator (mit keinem von beiden haben wir eine Affiliate-Beziehung).
Kommerzielle Alternative & Verwandtes
- Kommerzielles Pendant: Claude Computer Use / OpenAI Operator
Dieses Repo war in der Ausgabe 2026-06 des Open-Source-KI-Radars.
strix
usestrix
Framework autonomer 'KI-Hacker'-Agents für dynamische Anwendungssicherheitstests.
Page Agent
alibaba
In-Page-JavaScript-GUI-Agent - jede Webseite mit natürlicher Sprache steuern, kein headless-Browser oder Extension.
Browser Harness
browser-use
Self-Healing-Browser-Harness, der LLMs ermöglicht, einen echten Browser via CDP zu steuern.