适合谁
- 需要自动化重复性网页操作的开发者(表单填写、数据抓取、截图流程)
- 已经用过 Playwright/Puppeteer、理解浏览器自动化基本概念的人
- 需要让 AI Agent 在真实网页上执行多步任务的场景
不适合谁
- 刚接触 OpenClaw、还没装过任何技能的纯新手
- 期待"说一句话就能完美操作任何网站"的人——它做不到
- 只需要简单爬取静态页面内容的(用 tavily 或 fetch 足够了)
- 对浏览器自动化零基础、不理解 DOM / selector 概念的人
3 分钟上手
安装
npx clawhub@latest install agent-browser
第一次正确使用
不要一上来就让它操作复杂页面。第一步:
- 让它打开一个你熟悉的简单页面(比如你自己的博客)
- 让它截个屏,确认它真的"看到"了页面
- 然后再尝试一个有明确操作目标的任务(比如"点击导航栏的第二个链接")
关键:你需要在前 3 次使用中建立对它"能力边界"的直觉。
典型使用场景
场景 1:自动化填写重复表单
你每周要在某个后台系统填 20 条类似数据。让 agent-browser 打开页面、定位表单字段、依次填写并提交——但你必须在旁边看着前几次执行。
场景 2:网页内容截图存档
定期对某些页面截图存档。比如竞品价格页、政策公告页——它可以批量打开、截图、保存。
场景 3:多步骤网页流程自动化
登录 → 导航到目标页 → 下载报告 → 退出。适合固定路径、页面结构稳定的操作。
常见翻车点
- 页面动态加载导致操作失败:很多现代网页用懒加载、SPA 路由,agent-browser 的操作时机可能不对,导致点击了不存在的元素
- 登录态丢失:如果你的目标网站有 cookie 过期、二次验证,自动化流程会中断
- 页面结构变化:目标网站改版后,之前写好的流程可能全部失效——这不是 bug,是浏览器自动化的固有限制
- 把它当万能爬虫:它不是 Scrapy,不适合大规模数据采集
风险提示
权限风险
- 高权限:需要 browser 和可能的 bash 权限
- 网络访问:会访问任意 URL,包括你的登录页面
使用风险
- 页面状态变化导致执行偏差:AI 看到的页面和你预期的可能不一样
- 敏感页面误操作:如果让它操作银行、支付页面,后果不可逆
- 执行结果不可预测:同一条指令在不同页面状态下结果不同
建议
- 不要让它操作任何涉及金钱、删除、权限变更的页面
- 前 5 次使用必须在旁边监督整个过程
- 固定好使用场景后再逐步放手
相关替代技能
- tavily:如果你只需要网页搜索和信息提取,不需要操作页面,用 tavily 更简单安全
- peekaboo:如果只需要截屏(不操作),peekaboo 更轻量
- fetch(内置):如果只需要获取 API 数据或静态页面内容