我一直觉得,现在的各种自动化测试和 Web Agent 框架都被过度设计了,反而徒增内耗。
以前想在业务系统里搞个自动填表,或者弄个能听懂人话的网页机器人,大家的第一反应往往是:拉起一个 Python 服务,跑一个极其吃内存的 Puppeteer 无头浏览器,有的甚至还要实时截图喂给多模态大模型去做 OCR 识别。为了点个登录按钮,硬生生把架构搞成了巨无霸,部署和运维简直让人抓狂。
最近在看阿里开源的 Page Agent 这个项目,感觉它算是彻底把 Web 自动化这层窗户纸给捅破了。
这项目到底是个啥?
别被什么高级的 Agent 概念唬住。用大白话讲,它就是一个存活在你网页内部的纯前端 GUI 智能体(JavaScript in-page GUI agent)。
它的核心逻辑非常暴力且实用:不需要 Python,不需要无头浏览器,甚至不需要装什么浏览器插件(除非你需要跨标签页操作)。它就是一段直接跑在你当前网页里的 JavaScript 代码,能接收你的自然语言指令,然后自动去帮你点击、滚动、填写网页。
几个直击痛点的核心爽点
纯文本操作 DOM,抛弃花里胡哨的截图与 OCR 现在的多模态大模型虽然火,但 API 调用又慢又贵。Page Agent 非常务实,它直接通过文本的形式对页面的 DOM 树进行解析和操作。这意味着你不需要任何屏幕截图,也不需要多模态大模型的支持,更不需要向用户申请什么特殊的系统权限。随便接一个便宜的纯文本大模型就能让它跑得飞快。 极简的业务系统“AI 爆改” 这玩意儿简直是改造老旧 Admin 后台和复杂 CRM/ERP 系统的神器。你想在自己的 SaaS 产品里加一个 AI Copilot?根本不需要去动后端的代码。直接引入它的 NPM 包,加上几行配置,原本需要用户点 20 次鼠标的繁琐工作流,直接变成一句简单的人话指令。而且它还自带一个非常漂亮、支持人类介入审核(human-in-the-loop)的用户界面。 
应用场景
对接答疑机器人: 把你的答疑助手变成全能Agent。客服机器人不再只说「请先点击设置按钮然后点击…」,而是直接帮用户现场操作。
交互升级/智能化改造: 一行代码,老应用变身Agent,产品专家帮用户操作复杂 B 端软件。降低人工支持成本,提高用户满意度。
产品教学: 向用户演示交互过程,边做边教。例如让AI演示「如何提交报销申请」的完整操作流程。
无障碍支持: 为视障用户、老年用户提供自然语言交互,对接屏幕阅读器或语音助理,让软件人人可用。
折腾与部署
作为一个纯正的前端方案,它的接入体验丝滑到了极点。
你可以直接通过 <script> 标签引入 CDN 来快速测试,或者在你的前端工程里通过 npm install page-agent 安装。
核心的调用代码干净得令人发指:
总结一下:如果你受够了维护那些极其脆弱的无头浏览器自动化脚本,或者正头疼该怎么用最低的成本给公司的 Web 产品加上“自然语言操控”的能力,Page Agent 提供了一条极其轻量且优雅的捷径。把繁琐的交互逻辑交给大模型去折腾,这才是真正的降本增效。
项目地址:https://github.com/alibaba/page-agent
演示地址:https://alibaba.github.io/page-agent
