📝 Documentation actively under construction. Check out our announcement blog →

Browser

Agent TARS 支持直接操作你的本地浏览器,因此,在本地使用 Agent TARS CLI 时,你需要确保你安装了 Chrome。

Browser Operation

在 Agent TARS 中,我们支持基于 DOM、基于 VLM,以及 DOM + VLM 两种模式混合的三种浏览器操控方案:

模式介绍
dom操作能力基于 DOM 分析的 Browser Use,在 Agent TARS 早期版本为此方案。
visual-grounding操作能力基于 GUI Agent(UI-TARS / Doubao 1.5 VL),无 DOM 相关的工具。
hybrid操作能力同时包含 visual-groundingdom 相关的工具

* 三种模式均包含 navigatetab 相关的基础导航工具,以及 。

接下来,我将向你讲述三种模式的区别,我们以一段非常简单的 captcha 任务来描述:

Open https://2captcha.com/demo/normal and pass it

DOM

开启方式

// agent-tars.config.ts
import { defineConfig } from '@agent-tars/interface';

export default defineConfig({
  browser: {
    control: 'dom',
  },
});

测试表现

针对前文提到的统一测试 Prompt:

Open https://2captcha.com/demo/normal and pass it

表现如下,可以看到,由于 LLM 看不到屏幕,操作的路径非常复杂,最终也失败了:


工作原理

基于 DOM 的方案本质工作原理是通过 DOM 分析,识别出页面中的可交互元素:

Build DOM Tree And Highlight


[1]<img></img>
[2]<button>Captcha solver</button>
[3]<a>Entry job</a>
[4]<a>API</a>
[5]<a>Proxy</a>
[6]<a>Software</a>
[7]<a>Blog</a>
[8]<a>Sign up</a>
[9]<a>Log in</a>
// ... 

因此,这套方案不依赖 Vision,即便是不支持 Vision 的模型(如 DeepSeek) 也可以运行。

Visual Grounding

开启方式

// agent-tars.config.ts
import { defineConfig } from '@agent-tars/interface';

export default defineConfig({
  browser: {
    control: 'visual-grounding',
  },
});

测试表现

针对前文提到的统一测试 Prompt:

Open https://2captcha.com/demo/normal and pass it

可以看到,Agent 能够看到,并直接基于视角完成点击、输入,很快就完成了任务:

工作原理

本质上,是由 VLM 模型完成 Grounding,返回具体要操作的坐标和内容,然后交给 Browser Operator 完成执行,上述任务实际上经历了三次输出,最终解析后的结果如下:

click(point='<point>383 502</point>')  # 1. 激活输入框
type(content='W9H5K')                  # 2. 输入验证码
click(point='<point>339 607</point>')  # 3. 点击 Check 按钮,完成检查

这里的解析细节与跨模型兼容性,实际上比想象中要复杂,不在本文的讨论范围内,因此暂时跳过。

和 UI-TARS-desktop 对比

如果你使用过 UI-TARS-Desktop,你可以将这种形态理解为 UI-TARS-desktop 的 Browser operator + 导航工具 + 信息提取工具。

Hybrid

开启方式

// agent-tars.config.ts
import { defineConfig } from '@agent-tars/interface';

export default defineConfig({
  browser: {
    control: 'hybrid',
  },
});

测试表现

Visual Grounding

工作原理

从本质来说,Hybrid 模式是将两种场景的 Action Space 合并,通过 Prompt Engineering 协调关系,并交给模型最终来推理和选择合适的工具。由于我们已经为 Visual Grounding 增加了 “信息提取” 相关的工具,因此,大多数情况下,目前 Hybrid 的表现和 Visual Grounding 的实际表现已经差距不大。

在一些场景下,Hybrid 可以在尝试先试用更轻量的 DOM 操作方案,如果失败了,Visual Grounding 能够进行兜底:

Hybrid Browser Control in Agent TARS

因此,从理论上来说,Hybrid 模式具有更好的容错能力。

对比

对比维度DOMVisual Grounding
原理通过 JavaScript 解析页面 DOM 结构,识别可交互元素通过视觉模型分析页面截图,理解视觉布局和元素
视觉理解能力有限,无法理解视觉设计和布局美学能理解页面视觉布局和用户体验
动态内容处理受限,对 Canvas、复杂 CSS 渲染内容处理能力有限灵活,能处理各种视觉呈现的内容
跨框架兼容性依赖 DOM 结构框架无关,只要能截图就能分析
实时性较好,可实时获取页面状态一般,需要截图和模型处理时间

模型兼容性

目前,典型模型的兼容性列表如下:

Model ProvderModelTextVisionTool Call & MCPVisual Grounding
volcengineSeed1.5-VL✔️✔️✔️✔️
anthropicclaude-3.7-sonnet✔️✔️✔️🚧
openaigpt-4o✔️✔️✔️🚧