Browser-Use 0.9.0深度解析:Code Use如何革新网页自动化与数据爬取

近日,Browser-Use团队发布了0.9.0版本,这一更新标志着浏览器自动化工具进入了一个全新的发展阶段。本次升级的核心亮点是引入了Code Use功能,专门针对数据爬取场景进行了优化设计。这一创新不仅提升了自动化效率,更从根本上改变了AI与网页交互的方式。

Browser-Use 0.9.0深度解析:Code Use如何革新网页自动化与数据爬取

传统网页自动化工具通常依赖于模拟人类操作——通过视觉识别定位元素,然后模拟鼠标点击、键盘输入等动作。这种方式虽然直观,但存在明显的局限性:视觉识别可能因页面布局变化而失效,模拟操作的速度受限于人类操作的反应时间,且在多步骤复杂任务中容易出错。Browser-Use 0.9.0的Code Use功能则采用了截然不同的思路:既然网页本身就是由代码(HTML、CSS、JavaScript)构建的,那么最原生的交互方式也应该是代码级别的操作。

团队为此开发了一个特殊的Agent架构和定制化的LLM模型。这个系统的核心特点是:Agent只输出Python和JavaScript代码,然后通过Chrome DevTools Protocol(CDP)直接操控浏览器。这意味着AI不再需要通过“看”页面来理解结构,而是直接“理解”页面的代码结构。CDP作为浏览器与外部工具通信的桥梁,允许直接访问和操作DOM元素、执行JavaScript、监控网络请求等底层功能。这种直接代码操控的方式消除了视觉识别和模拟点击的中间层,理论上可以实现更高的效率和准确性。

从技术实现角度看,Code Agent的工作流程可以分为几个关键阶段:首先,Agent接收自然语言描述的任务(如“收集Flipkart网站上特定类别的产品信息”);然后,定制LLM将任务分解为一系列代码操作指令;这些代码通过CDP发送给浏览器执行;执行结果返回给Agent进行下一步决策。整个过程形成了一个闭环的自动化系统。

使用示例清晰地展示了这种新范式的优势。基础任务如“查找指定GitHub仓库的star数量”,只需几行代码即可完成:

“`python

from browser_use import CodeAgent, ChatBrowserUse

agent = Agent(

task=’Find the number of stars of the following repos: browser-use, playwright, stagehand, react, nextjs’,

llm=ChatBrowserUse(), # 需要使用特定的LLM

)

await agent.run()

“`

更复杂的多步骤任务同样可以优雅处理。以电商数据爬取为例:

“`python

async def main():

task = “””

Go to https://www.flipkart.com. Continue collecting products from Flipkart in the following categories…

“””

agent = CodeAgent(

task=task,

max_steps=30,

)

try:

print(‘Running code-use agent…’)

session = await agent.run()

finally:

await agent.close()

“`

这个例子中,Agent需要完成导航到网站、识别产品类别、提取产品详细信息(URL、名称、价格、折扣等)、处理分页等复杂操作。传统方法可能需要编写大量定制化脚本,而Code Use通过自然语言指令就能生成相应的自动化代码。

然而,这种强大的能力也带来了安全隐患。团队明确指出:这个Agent会写入和执行不安全的代码,在生产环境中使用需要格外谨慎。代码执行可能带来的风险包括:意外修改网页数据、执行恶意脚本、泄露敏感信息等。团队正在开发alpha版本的安全解决方案,包括沙箱环境、代码审查机制、权限控制等,建议有生产环境需求的用户等待正式发布的安全版本。

从行业影响来看,Browser-Use 0.9.0的发布具有多重意义。首先,它降低了网页自动化的技术门槛,使非专业开发者也能通过自然语言指令完成复杂的数据采集任务。其次,它为AI代理(AI Agent)的发展提供了新的思路——让AI直接操作代码而非模拟人类行为,可能成为未来自动化工具的主流方向。最后,这种技术可能催生新的应用场景,如自动化测试、竞品监控、价格追踪、内容聚合等。

技术细节方面,定制LLM的训练数据可能包含了大量网页操作相关的代码示例,使其能够准确理解网页结构和操作逻辑。CDP的使用确保了跨浏览器的兼容性,同时提供了丰富的调试和监控能力。Agent的多步决策机制使其能够处理复杂的、需要条件判断的任务流程。

展望未来,Browser-Use的发展方向可能包括:更智能的代码生成(减少人工干预)、更完善的安全机制(确保生产环境可用性)、更丰富的API(支持更多浏览器功能)、以及与其他AI工具的集成(如结合视觉模型处理验证码等)。随着AI技术的不断进步,这种代码优先的自动化范式有望在更多领域得到应用。

感兴趣的开发者可以访问项目地址进行尝试:https://github.com/browser-use/browser-use。建议在测试环境中充分验证功能,关注官方发布的安全更新,并根据实际需求评估是否适合生产环境部署。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/8907

(0)
上一篇 2025年10月23日 下午12:36
下一篇 2025年10月24日 上午11:48

相关推荐

  • OmniXtreme:人形机器人突破极限动作壁垒,实现连续翻转与霹雳舞表演

    在春晚上,宇树机器人带来的武术表演《武 BOT》令人印象深刻。表演中,人形机器人 G1 和 H2 在快速奔跑中完成了穿插变阵与武术动作,展现了高动态、高协同的全自主集群控制能力。 如今,北京通用人工智能研究院(BIGAI)、宇树科技、上海交通大学与中国科学技术大学等机构的一项新研究,在此方向上更进一步。他们提出了 OmniXtreme:一种能够执行各类极限动…

    2026年3月3日
    66600
  • 硅谷辍学创业潮再起:AI时代下学位价值重估与创业窗口期博弈

    在 80、90 后的成长记忆中,“辍学创业,成为亿万富翁”的故事一度广为流传。 理性分析可知,这其中既有幸存者偏差,也存在个体差异。比尔·盖茨和马克·扎克伯格都来自哈佛,随时可以返校完成学业;史蒂夫·乔布斯也并未完全脱离校园,而是以旁听生的身份自由选课。 然而,这股风潮近期在硅谷再度兴起。“辍学创业”正成为一个被主动提及、甚至带有褒义色彩的标签。 这一趋势在…

    2026年1月2日
    39700
  • 理想前智驾一号位郎咸朋联手阿里前副总裁任庚,昆仑行3月注册即成独角兽,具身智能赛道再掀资本狂潮

    一家具身智能公司,3月初刚刚注册,3月尚未结束,估值已远超10亿美元。 这家公司名为“昆仑行”,由理想汽车前智驾一号位郎咸朋与阿里巴巴前副总裁任庚携手创立。 据悉,昆仑行已迅速完成三轮融资,跻身独角兽行列,成为今年以来最受资本关注的具身智能新势力之一。 企查查数据显示,北京昆仑行机器人科技有限公司注册于2026年3月16日,经营范围涵盖智能机器人研发与销售、…

    2026年4月1日
    57500
  • Chrome 146重磅更新:原生MCP支持让AI Agent直接操控真实浏览器会话,自动化门槛大幅降低

    Chrome 146 版本引入了一项关键更新:原生支持模型上下文协议(MCP)。这一特性将显著改变 AI Agent 与浏览器交互的方式。 以往,通过 AI 操作浏览器通常面临两种选择:使用无头模式,或手动移植登录状态。这两种方法都存在局限——无头浏览器易被网站检测并限制;而移植 Cookie、Token 等登录凭证则过程繁琐。尽管存在通过中继插件调用浏览器…

    2026年3月14日
    2.1K00
  • 豆包手机技术架构深度解析:从UI-TARS到OS级虚拟化的AI手机革命

    近期,一款名为“豆包手机”的AI设备在科技圈引发广泛关注,其宣称能够通过语音指令实现跨应用自动操作、后台任务处理等复杂功能,被海外创业者Taylor Ogan称为“世界上第一款真正的智能手机”。本文将从技术架构角度,深入分析豆包手机背后的核心机制,探讨其如何通过混合感知、并行运行时等创新设计,推动AI手机从概念走向现实。 豆包手机的核心技术突破在于其并非简单…

    2025年12月10日
    1.1K00

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注