字节版Operator抢跑OpenAI? 直接免费开源，网友：怒省200美元！

机器之心·2025-01-26

关注

技术报告已经公开。

编者按：本文来自微信公众号机器之心，创业邦经授权转载。

一线大模型，正在全面进入智能体时代。

1 月 24 日凌晨 2 点，OpenAI 面向月供 200 美元的 ChatGPT Pro 用户发布了自家的 Computer Use 智能体：Operator。

OpenAI 甚至给 Operator 开设了单独的产品界面，将它视为与 ChatGPT、Sora 并列的关系，这也符合 Sam Altman、黄仁勋、扎克伯格等科技大佬对于「2025 年将是 AI 智能体之年」的趋势判断。

实际上 Operator 只是最近一段时间，全球大模型公司智能体集中发布浪潮的一部分。早于 Operator 发布前两天，字节跳动豆包大模型团队就已经公布了同类型智能体：UI-TARS。

据悉，UI-TARS 的名字来源于电影《星际穿越》的 TARS 机器人，预示着它具备高度的智能和自主思考能力。

重点是：UI-TARS 是开源的！大家可以免费使用。而且，UI-TARS 还有对应的详细技术报告可供学习。所以，无论从应用普及还是学术研究的角度来看，UI-TARS 都将成为一股重要的力量，推动智能体时代加速到来。

发布三四天，UI-TARS 的 GitHub star 量就突破了 1k，支持 Windows 和 Mac 系统的 UI-TARS-desktop 客户端达到了 1.6k stars，可见这种质量的开源智能体项目在社区是非常稀缺的。

此前在业内小有名声的 Web 自动化框架 Midscene.js ，在接入 UI-TARS 之后也增加了大量 star 关注，上榜 Github Trending。

下面是 UI TARS 实测效果。可以看到，它不仅能像 Operator 一样控制浏览器和执行推理，并且只要是能显示在屏幕上的，它都能操作。

字节版Operator抢跑OpenAI? 直接免费开源，网友：怒省200美元！

UI-TARS 帮用户调整 Chrome 浏览器的字体大小。可以看到，UI-TARS 似乎有一些内置的知识可以支持自己的思考，比如它知道通过 Chrome 右上角三个点的图标可以访问「设置」，并且能精准地在屏幕上找到这三个点。

UI-TARS 帮用户订机票。它不仅能根据设置搜索到对应机票，还可以按照价格排序。

有意思的是，相比于 Operator 只能操控电脑，UI-TARS 还能操控手机。

与字节开源的 UI 自动化工具 Midscene.js 放到一起，UI-TARS 还能发挥更大的价值 —— 支持目标驱动、兼容画布操作、允许私有化部署、执行效率跃升等等，开发者能明显感受到其中的变化。

联合应用 Midscene.js 与 UI-TARS ，用 JS 代码驱动编排任务，搜集周杰伦演唱会的信息，并写入 Google Docs。

目前，已经有许多海内外用户在测试 UI-TARS，并给出了非常积极的反馈。

比如，Lepton AI 联合创始人谢亚东尝试用 UI-TARS-7B-SFT 和 midscene.js 开发了一个 Web Agent。

继续观看

字节版Operator抢跑OpenAI? 直接免费开源，网友：怒省200美元！

观看更多转载,字节版Operator抢跑OpenAI? 直接免费开源，网友：怒省200美元！机器之心已关注分享点赞在看已同步到看一看写下你的评论

视频详情

UI-TARS PC 客户端：https://github.com/bytedance/UI-TARS-desktop
Midscene.js 浏览器控制：https://github.com/web-infra-dev/midscene

UI-TARS 为啥操作准？端到端的智能体架构创新

与 OpenAI 商业化优先相对的是，字节的 UI-TARS 优先公开且开源了技术文档。我们可以看到 UI-TARS 技术路线的创新之处。

论文标题：UI-TARS: Pioneering Automated GUI Interaction with Native Agents
论文地址：https://arxiv.org/pdf/2501.12326
开源地址：https://github.com/bytedance/UI-TARS

具体地讲，UI-TARS 具有以下几项创新点：

增强感知（Enhanced Perception）：利用大规模 GUI 截图数据集，实现对 UI 元素的上下文感知理解并生成精确描述；
统一动作建模（Unified Action Modeling）：将动作标准化处理到跨平台的统一空间中，并通过大规模动作轨迹实现精确定位和交互；
System 2 推理（System-2 Reasoning）：将深思熟虑的推理纳入多步决策，并涵盖任务分解、反思思维等多种推理模式。
迭代式反思训练（Iterative Training with Reflective Online Traces）：通过在数百台虚拟机上自动收集、过滤和反射细化新的交互轨迹来解决数据瓶颈问题。同时基于迭代训练和反思训练，UI-TARS 持续从错误中学习，并在最少的人为干预下适应不可预见的情况。

字节豆包大模型团队认为，如果想要 AI 智能体真正实现类人的自主任务执行能力，就必须解决当前通用大模型直接应用在 GUI（图形用户界面）智能体上存在的一些技术缺陷与不足。

首先，用户指令的执行需要提取特定元素的坐标信息，而通用大模型通常缺乏所需要的精确数值理解能力。其次，通用大模型在处理目标驱动场景时往往理解不到位，这就需要开发者提供详细的自然语言说明操作步骤，增加了开发者的负担。最后，同时发送图片信息与元素描述不可避免地造成模型调用过程中消耗大量的 token，会导致性能损耗，成本升高。

在 Operator 中，OpenAI 通过 GPT-4o 的视觉能力和强化学习实现的高级推理相结合，让智能体可以像人类一样与图形界面进行交互，灵活地执行任务。

UI-TARS 也很好地解决了上述瓶颈，它依托强大的通用多模态语言模型进行视觉识别，并面向智能 UI 交互进行了定向训练。这样做的结果便是：UI-TARS 在 GUI 智能体领域能够发挥出远胜于其他通用模型或 GUI 模型的表现，与此同时可以兼容各种形式的操作系统。

效果好不好，我们用权威基准测试结果来说话。在线动态环境可以模拟真实世界场景的交互，而 GUI 智能体通过实时执行操作来改变环境状态，从而可以满足用户需求。

其中在 OSWorld 上，当限定的最大步数为 15 时，UI-TARS 的任务成功率可达 22.7%，超过了 Claude 的 14.9%，也超过了 Operator 的 19.7%。而当限定步数提升到 50 步时，UI-TARS 的成功率达到了 24.6%，同样也超过 Claude，但根据 OpenAI 公布的数据，Operator 在 50 步时的表现达到了 32.6%，相对 UI-TARS 有明显优势。这意味着 test-time scaling 是 UI-TARS 下一步需要升级的方向。

不仅如此，在基于 Andriod 操作系统的 AndroidWorld 基准上，UI-TARS 获得了 46.6% 的任务成功率，大幅超过了 GPT-4o 的 34.5%。

除了在线动态环境中实现能力新 SOTA 之外，UI-TARS 同样在 Multimodal Mind2Web（用于创建和评估执行语言指令的 web 智能体）以及 Android Control（评估移动端环境中的规划和动作执行能力）、GUI Odyssey（专注于移动端环境中跨应用导航任务）等三个离线静态、预定义环境相关的基准测试中表现领先。

更进一步，UI-TARS 的智能体系统是端到端的，这被认为是智能体 AI 的下一个方向。

自 GPT-4 出现后，智能体成为了 AI 领域研究的热门领域，最近又经历了一次范式革新。首先是智能体框架（Agent Framework），其主要利用高性能基础模型（如 GPT-4o）的理解和推理能力来增强任务的灵活性。他们实现了自动化和灵活的交互，也可以借助更多模块不断增强，或完成多智能体协作，但它仍然依赖人为定义的工作流来构建其操作。因此，智能体框架会面临适应性较差、模块不兼容等问题，维护开销较大。

在当前阶段，一些研究团队已经提出了智能体模型（Agent Model）新范式，其中任务以端到端的方式学习和执行，将感知、推理、记忆和动作统一在一个不断发展的模型中。

这种方法从根本上实现了数据驱动，让智能体可以无缝适应新任务、界面或用户需求，无需依赖手动制作的提示或预定义规则，拥有强大泛化能力，也可以进行自我改进。

向人类看齐

充分利用 System 2 推理能力

在生成式 AI 技术突破后，人们希望让人工智能实现人脑「快慢系统」的思考方式。其中「System 1」负责快速的、直觉的、无意识的匹配。当给定一个问题时，System 1 匹配相关答案并直接输出。但这些答案缺乏推理过程，直接用习惯性的结果进行匹配。

作为对比，「System 2」相对较慢，没有 System 1 的快速匹配过程，但它带有更多的逻辑推理和序列推理，这是一个有意识的带规划、带认知的过程。

结合两套系统的优势，我们就能实现更加复杂准确的推理，构建起认知智能，这也是 UI-TARS 想要实现的目标。

在技术报告中，UI-TARS 的定位是「一个原生 GUI 智能体模型，其设计目标是在不依赖繁琐的人工设计规则或级联模块的情况下进行运作。」

从功能上看，UI-TARS 可直接感知屏幕截图、应用推理过程并自主生成有效操作。此外，UI-TARS 还可以学习之前的经验，通过利用环境反馈来迭代改进其性能。下图展示了其整体架构。

整体来说，UI-TARS 的能力都是围绕感知、推理、动作以及经验学习进行的。对比一下 OpenAI Operator 的架构（如下），有一定的相似之处。

具体来说，给定一个初始任务指令，为了完成任务，UI-TARS 会迭代式地接收来自设备的观察结果并执行相应的操作。在每个时间步骤，UI-TARS 会以任务指令、先前交互的历史和当前观察为输入，基于预定义的动作空间输出动作。执行完动作之后，设备会提供后续观察，持续迭代。

为了进一步增强智能体的推理能力，并让决策更加深思熟虑，研究团队还集成了一个以「思维（thoughts）」形式出现的推理组件，该组件会在每个动作之前生成。

这些「思维」能反映 System 2 思维的反思性质。它们是至关重要的中间步骤，可引导智能体在继续之前重新考虑以前的动作和观察，与环境细致互动，构成反思性交互，从而确保每个决定都是意图明确的并且都是经过仔细思考的。

数据集、推理与长期记忆，UI-TARS 集成了一系列创新

了解了 UI-TARS 的技术框架，我们再继续深入其各个层面的细节，看看这个 Computer Use 智能体的优良表现究竟来自何处。同时，这也或许能让我们洞见一二 Operator 等其它同类智能体的设计思路。

要训练 GUI 智能体，还需要过数据这一关。字节豆包大模型团队采用原生智能体方法，直接处理 GUI 截图输入，利用大规模统一数据集来提升性能。

具体实施包括：收集大规模数据集；为界面元素创建结构化描述 (类型、视觉、位置、功能)；提供密集描述包括空间关系和整体布局；标注状态转换数据；合成多样化问答数据集；增加 Set-of-Mark 提示，在界面上添加不同属性的标记，帮助模型定位识别元素。

通过这些步骤，UI-TARS 能更好地理解和处理 GUI 任务。

感知与 grounding 数据样本

研究团队还进行了统一的动作空间建模与 grounding，在增强模型准确理解和定位视觉元素的能力的同时，让模型学会一些连续的多步轨迹，在完成一些任务时可以不假思索地完成，类似于 System 1 思维。下表 1 给出了不同平台的统一动作空间，而表 2 则展示了 grounding 与多步动作轨迹数据的基本统计信息。