Browser-Use 0.9.0深度解析：Code Use如何革新网页自动化与数据爬取

2025年10月24日上午7:42 • AI产业动态 • 阅读 90

近日，Browser-Use团队发布了0.9.0版本，这一更新标志着浏览器自动化工具进入了一个全新的发展阶段。本次升级的核心亮点是引入了Code Use功能，专门针对数据爬取场景进行了优化设计。这一创新不仅提升了自动化效率，更从根本上改变了AI与网页交互的方式。

传统网页自动化工具通常依赖于模拟人类操作——通过视觉识别定位元素，然后模拟鼠标点击、键盘输入等动作。这种方式虽然直观，但存在明显的局限性：视觉识别可能因页面布局变化而失效，模拟操作的速度受限于人类操作的反应时间，且在多步骤复杂任务中容易出错。Browser-Use 0.9.0的Code Use功能则采用了截然不同的思路：既然网页本身就是由代码（HTML、CSS、JavaScript）构建的，那么最原生的交互方式也应该是代码级别的操作。

团队为此开发了一个特殊的Agent架构和定制化的LLM模型。这个系统的核心特点是：Agent只输出Python和JavaScript代码，然后通过Chrome DevTools Protocol（CDP）直接操控浏览器。这意味着AI不再需要通过“看”页面来理解结构，而是直接“理解”页面的代码结构。CDP作为浏览器与外部工具通信的桥梁，允许直接访问和操作DOM元素、执行JavaScript、监控网络请求等底层功能。这种直接代码操控的方式消除了视觉识别和模拟点击的中间层，理论上可以实现更高的效率和准确性。

从技术实现角度看，Code Agent的工作流程可以分为几个关键阶段：首先，Agent接收自然语言描述的任务（如“收集Flipkart网站上特定类别的产品信息”）；然后，定制LLM将任务分解为一系列代码操作指令；这些代码通过CDP发送给浏览器执行；执行结果返回给Agent进行下一步决策。整个过程形成了一个闭环的自动化系统。

使用示例清晰地展示了这种新范式的优势。基础任务如“查找指定GitHub仓库的star数量”，只需几行代码即可完成：

“`python

from browser_use import CodeAgent, ChatBrowserUse

agent = Agent(

task=’Find the number of stars of the following repos: browser-use, playwright, stagehand, react, nextjs’,

llm=ChatBrowserUse(), # 需要使用特定的LLM

)

await agent.run()

“`

更复杂的多步骤任务同样可以优雅处理。以电商数据爬取为例：

“`python

async def main():

task = “””

Go to https://www.flipkart.com. Continue collecting products from Flipkart in the following categories…

“””

agent = CodeAgent(

task=task,

max_steps=30,

)

try:

print(‘Running code-use agent…’)

session = await agent.run()

finally:

await agent.close()

“`

这个例子中，Agent需要完成导航到网站、识别产品类别、提取产品详细信息（URL、名称、价格、折扣等）、处理分页等复杂操作。传统方法可能需要编写大量定制化脚本，而Code Use通过自然语言指令就能生成相应的自动化代码。

然而，这种强大的能力也带来了安全隐患。团队明确指出：这个Agent会写入和执行不安全的代码，在生产环境中使用需要格外谨慎。代码执行可能带来的风险包括：意外修改网页数据、执行恶意脚本、泄露敏感信息等。团队正在开发alpha版本的安全解决方案，包括沙箱环境、代码审查机制、权限控制等，建议有生产环境需求的用户等待正式发布的安全版本。

从行业影响来看，Browser-Use 0.9.0的发布具有多重意义。首先，它降低了网页自动化的技术门槛，使非专业开发者也能通过自然语言指令完成复杂的数据采集任务。其次，它为AI代理（AI Agent）的发展提供了新的思路——让AI直接操作代码而非模拟人类行为，可能成为未来自动化工具的主流方向。最后，这种技术可能催生新的应用场景，如自动化测试、竞品监控、价格追踪、内容聚合等。

技术细节方面，定制LLM的训练数据可能包含了大量网页操作相关的代码示例，使其能够准确理解网页结构和操作逻辑。CDP的使用确保了跨浏览器的兼容性，同时提供了丰富的调试和监控能力。Agent的多步决策机制使其能够处理复杂的、需要条件判断的任务流程。

展望未来，Browser-Use的发展方向可能包括：更智能的代码生成（减少人工干预）、更完善的安全机制（确保生产环境可用性）、更丰富的API（支持更多浏览器功能）、以及与其他AI工具的集成（如结合视觉模型处理验证码等）。随着AI技术的不断进步，这种代码优先的自动化范式有望在更多领域得到应用。

感兴趣的开发者可以访问项目地址进行尝试：https://github.com/browser-use/browser-use。建议在测试环境中充分验证功能，关注官方发布的安全更新，并根据实际需求评估是否适合生产环境部署。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/8907

Browser-Use 0.9.0深度解析：Code Use如何革新网页自动化与数据爬取

相关推荐

vLLM批量不变推理技术解析：攻克大模型输出一致性的工程挑战

从支线项目到行业颠覆者：DeepSeek等8大AI产品的意外崛起之路

文心5.0正式版发布：2.4万亿参数全模态大模型登顶全球第一梯队

破折号成瘾：AI写作风格如何暴露大模型训练数据的历史断层

VinciCoder：视觉强化学习突破多模态代码生成瓶颈，开启统一框架新纪元

发表回复