OpenClaw 部署指南:https://www.azman.cn/

平台永久地址:www.azman.cn/

温馨提示: 本站内容精选自优质公开渠道,仅供分享与交流。我们尊重原创,如涉及版权问题,请权利方及时与我们联系,我们将在核实后第一时间处理。感谢您的理解与支持!

Chrome 146 来了:OpenClaw 操控浏览器最大的几个坑,终于有解了


这篇文章主要介绍了 AI Agent 项目 OpenClaw​ 在控制浏览器时遇到的痛点,以及 Chrome 146 稳定版​ 如何通过引入新的原生功能来解决这些问题。
核心内容总结如下:
  1. OpenClaw 操控浏览器的核心问题
    • 连接不稳定:通过浏览器扩展或远程调试协议(CDP)控制时,连接容易断开,尤其是在复杂操作下,频繁断连严重影响使用。
    • 配置复杂易出错:JSON 配置文件容易被自动修改或损坏,浏览器 Profile 设置容易出错。
    • 运行成本高昂:依赖频繁截屏让AI理解页面,消耗大量大模型 Token,费用高昂。
    • 安全风险大:指令不精确可能导致AI执行危险操作(如调用删除接口),浏览器会话被控制后可能泄露已登录账号的敏感信息。
    • 使用门槛高:需了解 JSON 配置、CDP 调试等知识,并非“开箱即用”。
    • 技术方案原始:当前主流AI Agent(包括 Anthropic Computer Use, OpenAI CUA 等)都依赖“截图-分析-点击”的循环,导致速度慢、对UI变化敏感,且无法感知动态内容。
  2. Chrome 146 带来的解决方案
    Chrome 146 的更新从两个层面提供了解决思路:
    • 原生 MCP 支持:浏览器原生支持 Model Context Protocol (MCP)​ ,成为一个MCP服务器。AI Agent 可以直接连接浏览器,无需再通过Puppeteer等中间层,从而获得更稳定、更简单的控制连接。
    • WebMCP 标准提案:这是由 Google 和 Microsoft 推动的 W3C 新标准提案,为网站提供了一个新的 API (navigator.modelContext)。网站可以主动告知AI自己提供哪些“工具”(如预订航班),AI无需再通过截图识别按钮,可以直接调用。这从根本上解决了截图方案的各种缺陷,降低了Token消耗,并提升了操作准确性。
  3. 如何利用新功能(实操方案)
    文章提供了三种利用新功能的具体方案:
    • 方案一(推荐给 OpenClaw 用户):使用 OpenClaw 内置的 user模式,通过 Chrome DevTools MCP 直连正在使用的 Chrome 浏览器。操作步骤包括开启Chrome远程调试、启动user模式、授权连接。这种方式连接稳定,且可复用浏览器中的所有登录状态。
    • 方案二(适合 Claude Code / Cursor 用户):不通过 OpenClaw,而是单独配置 Chrome DevTools MCP 服务器,使其能被 Claude Code 等编码助手工具调用,用于网站性能分析、调试等开发任务。
    • 方案三(尝鲜 WebMCP):在 Chrome Canary 版本中开启 WebMCP 实验性功能,并通过官方Demo网站体验网站主动暴露功能给AI的直接调用模式。这代表了未来的交互方向。
  4. 重要提醒
    • 安全:务必谨慎授权 AI 控制浏览器,尤其要关闭银行、支付等敏感页面,避免会话被滥用。
    • 现状:Chrome DevTools MCP 已可立即使用,能有效改善开发体验。而 WebMCP 目前仍处于早期预览阶段,其普及有赖于网站开发者的主动接入,但它是解决AI与网页交互瓶颈的根本性方向。

正文开始

最近 OpenClaw 火得不行,GitHub 星标从 9000 飙到 6 万多,成了 2026 年开年最炸的开源 AI Agent 项目。但你要是真拿它来操控浏览器干活,大概率会被折腾得够呛。

好消息是,4 天前(3月10日)Chrome 146 稳定版发布了,带来了原生 MCP 支持和 WebMCP 标准。这两个东西,恰好能治 OpenClaw 操控浏览器的好几个老毛病。

今天就来聊聊这件事。


01 OpenClaw 操控浏览器,到底有多折腾?

先说 OpenClaw 是什么。它是一个自托管的 AI Agent 运行时,你可以理解成一个「住在你电脑里的AI助手」,能通过 WhatsApp、Telegram、Slack 这些聊天工具来指挥它干活。它能执行终端命令、管理文件,也能操控浏览器。

浏览器操控是 OpenClaw 最吸引人的能力之一——让 AI 帮你填表、爬数据、下单、搜信息。但实际用起来,坑不少。

OpenClaw 提供了三种浏览器控制模式(Extension Relay、OpenClaw Managed、Remote CDP),看着挺全的,但每种都有各自的问题:

Chrome 146 来了:OpenClaw 操控浏览器最大的几个坑,终于有解了

插件动不动断连。 OpenClaw 通过 Chrome 扩展和 CDP 协议(Chrome DevTools Protocol)来控制浏览器。简单场景还行,一旦操作复杂点,扩展就容易断开,得手动重连。有个开发者在 GitHub 上记录了一次会话里浏览器连接断了 25 次的经历,每次断连要等 10 分钟超时,一下午什么都没干成。

配置文件经常炸。 OpenClaw 重启后,JSON 配置有时会被自动修改甚至损坏。浏览器的默认 profile 设置也容易出问题,明明配了独立浏览器模式,结果它偷偷回退到扩展中继模式,然后就挂了。

Token 烧得快。 OpenClaw 操控浏览器时会频繁截屏来理解页面内容,每张截图都要消耗 Token。复杂网页跑几步下来,Token 费用蹭蹭涨。有人专门引入了字节的 OpenViking 记忆方案来减少消耗,说明这个问题确实普遍。

安全事故不是段子。 一个真实案例:有人让 OpenClaw 分析某个页面加载了哪些 API 接口,结果指令不够精确,AI 直接调用了这些接口,其中有几个是删除接口,把评论平台上的评论全删了。还有人让 OpenClaw 登录 Google 账号后,5 分钟内 VNC 就被 139 个外部连接访问,攻击者利用浏览器里的登录状态收验证码、开云服务器。

使用门槛不低。 虽然很多文章说 OpenClaw「开箱即用」,但真要把浏览器操控跑通,你得懂 JSON 配置、会排查 CDP 端口问题、持续调试 skill。对非技术用户来说,门槛真不低。

这些问题的根源其实可以归结为两点:一是 AI 理解网页的方式太原始(截图 + 像素识别),二是浏览器和 AI Agent 之间缺少一个稳定的标准化接口。


02 不只是 OpenClaw:整个行业的老毛病

其实不光 OpenClaw,Anthropic 的 Computer Use、OpenAI 的 Operator(CUA)、Claude Code 操控浏览器,都有类似的问题。

当前主流 AI Agent 操控浏览器基本都是一个路子:截屏,视觉模型分析,模拟点击,再截屏。

Anthropic 的 Computer Use 用的就是这种「翻相册」式的交互方式。官方自己都承认「速度明显慢于人工操作」,还建议「请专注于对速度要求不高的场景」。OpenAI 的 CUA 模型在 WebArena 测试集上成功率 58.1%,差不多一半任务会失败。

这种截图驱动的方案有几个根本缺陷:

  • • 慢。每一步操作都要走「截屏 → 上传 → 分析 → 返回指令」的完整循环
  • • 脆弱。网站改个按钮颜色或换个布局,AI 就可能认不出来
  • • 两次截图之间 AI 是「瞎的」,错过任何动态变化
  • • 复杂组件(日期选择器、拖拽、下拉菜单)经常搞不定

Chrome 146 来了:OpenClaw 操控浏览器最大的几个坑,终于有解了

所以问题的本质是:浏览器和 AI Agent 之间,一直缺一种让双方直接对话的方式。 AI 只能通过「看图猜意思」来理解网页,网站也没有办法主动告诉 AI 自己能做什么。


03 Chrome 146 带来了什么?

3月10日发布的 Chrome 146 正好解决了这两个核心问题。

浏览器原生 MCP 支持

MCP(Model Context Protocol)是 Anthropic 2024 年底提出的协议,你把它理解成「AI 工具的通用插座」就行。

以前 AI Agent 想操控浏览器,得靠 Puppeteer、Playwright 这些中间层去转接。Chrome 146 把这一步省了,浏览器自己就是 MCP 服务器。在 chrome://inspect/#remote-debugging 里打个开关,AI Agent 就能直接连上你正在用的 Chrome,读页面内容、执行操作、拿调试信息。

下面这张图是 Chrome 官方给出的远程调试连接流程,从开启开关到授权连接再到进入调试状态,一共三步:

Chrome 146 来了:OpenClaw 操控浏览器最大的几个坑,终于有解了

对 OpenClaw 用户来说,这意味着不再需要折腾 CDP 中继端口配置、Extension Relay 断连这些烦心事。连接层变得更稳定、更简单。

WebMCP:网站主动告诉 AI 自己能干什么

这个更根本。

WebMCP 是 Google 和 Microsoft 工程师联合搞的 W3C 提案标准,给浏览器加了一个新 API:navigator.modelContext

以前的逻辑:AI 截图 → 找到「预订航班」按钮 → 模拟点击。
现在的逻辑:网站告诉 AI「我有个 bookFlight() 功能,要出发地、目的地、日期三个参数」,AI 直接调用。

不需要截图,不需要像素识别,不怕网站改版。而且跟用什么模型无关,Claude、GPT、Gemini、开源模型都行。

Chrome 146 来了:OpenClaw 操控浏览器最大的几个坑,终于有解了

对 OpenClaw 来说,一旦网站接入了 WebMCP,就不用再靠截屏猜按钮了。Token 消耗降下来,操作准确率也能上去。


04 OpenClaw + Chrome 146 实操教程

下面讲怎么把这些新能力用到 OpenClaw 上。三个方案,按你的情况选:

Chrome 146 来了:OpenClaw 操控浏览器最大的几个坑,终于有解了

方案一:用 OpenClaw 内置的 user 模式直连 Chrome(推荐)

很多人不知道,OpenClaw 其实已经内置了对 Chrome DevTools MCP 的支持。它有一个叫 user 的内置 profile,底层走的就是 Chrome DevTools MCP 的 --autoConnect 流程,能直接连上你正在用的 Chrome,带着所有登录状态。

不需要手动配 MCP 服务器,不需要装 Chrome 扩展,开箱就能用。

环境要求:

  • • Chrome 144+(当前 Chrome 146 稳定版完全支持)
  • • OpenClaw 已安装并运行

第一步:开启 Chrome 远程调试

在 Chrome 地址栏输入 chrome://inspect/#remote-debugging,勾选「Allow remote debugging for this browser instance」:

Chrome 146 来了:OpenClaw 操控浏览器最大的几个坑,终于有解了

第二步:在 OpenClaw 中启动 user 模式

终端里依次运行:

# 启动 user profile(自动通过 Chrome DevTools MCP 连接)
openclaw browser --browser-profile user start

# 检查连接状态
openclaw browser --browser-profile user status

这时 Chrome 会弹出授权对话框,问你是否允许远程调试,点「Allow」:

Chrome 146 来了:OpenClaw 操控浏览器最大的几个坑,终于有解了

第三步:验证连接是否成功

运行下面的命令,如果能看到你 Chrome 里正在打开的标签页列表,就说明连上了:

# 列出当前 Chrome 所有标签页
openclaw browser --browser-profile user tabs

# 对当前页面做一次快照
openclaw browser --browser-profile user snapshot --format ai

连接成功后 status 会显示 driver: existing-sessiontransport: chrome-mcprunning: true

第四步:日常使用

连上之后,你可以在 OpenClaw 对话中让 AI 用 profile="user" 来操控你的真实浏览器。比如让它帮你查看某个已登录网站的数据、填表、做自动化操作,都不需要重新登录。

跟之前的 Extension Relay 模式比,user 模式的好处是:

  • • 不用装 Chrome 扩展,不用手动点扩展图标 attach
  • • 连接走 Chrome DevTools MCP,比 CDP 中继更稳定
  • • 不会出现之前 Extension Relay 动不动断连的问题

需要注意的是,这个模式需要你人在电脑前点授权弹窗,适合有人值守的场景。如果你需要无人值守的自动化,还是用隔离的 openclaw profile 更合适。

方案二:单独配置 Chrome DevTools MCP(适合 Claude Code / Cursor)

如果你不用 OpenClaw,而是用 Claude Code、Cursor 这类编码工具,可以单独配置 Chrome DevTools MCP。

环境要求:

  • • Node.js v20.19+
  • • Chrome 146 稳定版

同样先在 Chrome 里开启远程调试(chrome://inspect/#remote-debugging),然后:

Claude Code 用户,终端跑一行:

claude mcp add chrome-devtools -- npx chrome-devtools-mcp@latest --autoConnect

Cursor、Windsurf 等编辑器,在 MCP 配置文件里加:

{
  "mcpServers": {
    "chrome-devtools": {
      "command": "npx",
      "args": ["-y", "chrome-devtools-mcp@latest", "--autoConnect"]
    }
  }
}

配好后让 AI 试试「帮我检查 https://developers.chrome.com 的性能」,能返回 LCP、FCP 等指标就说明成功了。

你可以用它做性能检查、控制台报错排查、网络请求分析、模拟用户操作测试、截图审查样式问题这些事。

方案三:尝鲜 WebMCP

WebMCP 还在早期预览阶段,但值得试试看未来的方向。

  1. 1. 下载 Chrome Canary
  2. 2. 地址栏输入 chrome://flags,搜「WebMCP for testing」,打开,重启
  3. 3. 在 Chrome 应用商店装「Model Context Tool Inspector」扩展
  4. 4. 访问 travel-demo.bandarra.me 体验官方 demo

这个 demo 是一个旅行预订网站,通过 WebMCP 向 AI Agent 暴露了搜索航班、预订酒店等工具。你能直观地看到 AI 不再需要「看图找按钮」,而是直接调用网站提供的功能。


05 几点提醒

安全问题必须重视。 AI Agent 连上你的浏览器后,能读取所有标签页内容,包括已登录的网站。用的时候把银行、支付相关的页面关掉。OpenClaw 之前已经出过好几起安全事故,这方面不能大意。

WebMCP 离普及还有段距离。 目前只在 Chrome Canary 的 flag 里能用,而且得网站开发者主动接入才有意义。但方向很明确,Google 和 Microsoft 一起推,W3C 在走标准化。

Chrome DevTools MCP 现在就能用。 不用等 WebMCP 普及,Chrome DevTools MCP 作为补充方案已经很实用了。特别是做 Web 开发的同学,让 AI 帮你查性能、排 bug,体验提升很明显。


最后总结几点:

  1. 1. OpenClaw 操控浏览器的核心问题在于连接不稳定、Token 消耗大、安全风险高
  2. 2. 根本原因是 AI 和浏览器之间缺少标准化的对话方式,只能靠截图猜
  3. 3. Chrome 146 的原生 MCP 支持和 WebMCP,分别从连接层和协议层解决了这两个问题
  4. 4. OpenClaw 已内置 user profile 支持 Chrome DevTools MCP,几行命令就能直连你的 Chrome

你用 OpenClaw 操控浏览器的时候踩过什么坑?评论区聊聊~

给TA打赏
共{{data.count}}人
人已打赏
实战踩坑

OpenClaw的"四大Token黑洞”正在烧你的钱"(解决方案)

2026-3-24 0:44:48

实战踩坑

部署小龙虾(openclaw)的三种方式

2026-4-1 16:38:55

版权与安全声明:本文内容来源于第三方平台,相关素材的原始链接及标识均与原出处无关。我们致力于传递有价值的信息,若无意中侵犯了您的权益,请联系我们删除或调整。联系6065565#qq.com(请替换#为@)

网络信息繁杂,请读者自行甄别内容真实性,谨防受骗。本站目前无任何收费项目,官方福利群https://t.me/

官方福利群: https://t.me/

觉得内容不错?欢迎分享给好友,复制链接使用浏览器打开,让更多朋友看到!

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索