(AI 资源之家讯)5 月 11 日,字节跳动在 GitHub 上开源 UI-TARS-desktop 项目,定位为开源多模态 AI 智能体堆栈。该项目包含 Agent TARS 终端和浏览器 Agent 以及 UI-TARS Desktop 桌面 GUI Agent 两大组件,能通过视觉识别和自然语言指令直接控制电脑,GitHub 星标已突破 3.1 万。AI Agent 正在从对话框里的灵魂演变为物理世界的执行者。
## 像真人一样操作电脑
UI-TARS-desktop 的核心能力是通过视觉理解直接操控电脑界面。与传统的 RPA 工具不同,它不是通过模拟点击预设坐标来执行操作,而是像人类一样看屏幕、理解界面、然后做出操作决策。无论是打开应用程序、填写表单、拖拽文件还是跨应用数据搬运,UI-TARS 都能通过自然语言指令自主完成。这种基于视觉理解的操控方式,使其可以处理界面变化和异常情况,远超传统脚本式自动化的能力。
## 连接模型与基础设施的桥梁
UI-TARS-desktop 的定位是连接前沿 AI 模型与智能体基础设施的中间层。上层是 GPT、Claude、千问等大语言模型提供推理和决策能力,下层是操作系统和应用程序提供执行环境,UI-TARS-desktop 在中间负责将模型的决策转化为具体的界面操作。这种分层架构使得开发者可以自由选择不同的大模型作为后端,而不需要为每个模型重新开发操控逻辑。
## 对 RPA 行业的冲击
UI-TARS-desktop 的开源对传统 RPA 行业构成了直接冲击。传统 RPA 工具如 UiPath 和 Automation Anywhere 依赖预设规则和固定流程,维护成本高且灵活性差。基于视觉理解的 AI 智能体可以自适应界面变化,不需要为每个版本的应用重新编写脚本。当 AI Agent 可以像人一样操作电脑时,RPA 的规则引擎模式将面临根本性挑战。