字节跳动开源UI-TARS多模态智能体堆栈

（AI 资源之家讯）5 月 11 日，字节跳动在 GitHub 上开源 UI-TARS-desktop 项目，定位为开源多模态 AI 智能体堆栈。该项目包含 Agent TARS 终端和浏览器 Agent 以及 UI-TARS Desktop 桌面 GUI Agent 两大组件，能通过视觉识别和自然语言指令直接控制电脑，GitHub 星标已突破 3.1 万。AI Agent 正在从对话框里的灵魂演变为物理世界的执行者。

## 像真人一样操作电脑

UI-TARS-desktop 的核心能力是通过视觉理解直接操控电脑界面。与传统的 RPA 工具不同，它不是通过模拟点击预设坐标来执行操作，而是像人类一样看屏幕、理解界面、然后做出操作决策。无论是打开应用程序、填写表单、拖拽文件还是跨应用数据搬运，UI-TARS 都能通过自然语言指令自主完成。这种基于视觉理解的操控方式，使其可以处理界面变化和异常情况，远超传统脚本式自动化的能力。

## 连接模型与基础设施的桥梁

UI-TARS-desktop 的定位是连接前沿 AI 模型与智能体基础设施的中间层。上层是 GPT、Claude、千问等大语言模型提供推理和决策能力，下层是操作系统和应用程序提供执行环境，UI-TARS-desktop 在中间负责将模型的决策转化为具体的界面操作。这种分层架构使得开发者可以自由选择不同的大模型作为后端，而不需要为每个模型重新开发操控逻辑。

## 对 RPA 行业的冲击

UI-TARS-desktop 的开源对传统 RPA 行业构成了直接冲击。传统 RPA 工具如 UiPath 和 Automation Anywhere 依赖预设规则和固定流程，维护成本高且灵活性差。基于视觉理解的 AI 智能体可以自适应界面变化，不需要为每个版本的应用重新编写脚本。当 AI Agent 可以像人一样操作电脑时，RPA 的规则引擎模式将面临根本性挑战。

正文完