Browser-use 是一个开源的 Python 库,旨在将 AI 智能体(Agents)与真实浏览器无缝连接,实现浏览器自动化操作。它通过简单的接口让 AI 代理能够像人类一样浏览网页、提取信息、执行交互任务,并支持与大型语言模型(LLM)如 GPT 系列结合使用。以下是其核心特性和技术细节的总结:
核心功能
浏览器自动化
AI 代理集成
多模态支持
用户友好性
技术架构
组件 | 描述 |
---|---|
后端 | 基于 Python,集成 Playwright 实现浏览器控制 [4]。 |
AI 接口 | 兼容 OpenAI、Claude 等 LLM,通过 API 传递指令 [1]。 |
多标签管理 | 支持并行处理多个网页任务 [5]。 |
扩展性 | 允许自定义插件,如广告拦截、数据导出等 [17]。 |
应用场景
项目背景
- 开发团队:由两名开发者(Magnus 和 Gregor)在 4 天内完成核心代码(约 8000 行),融资 1700 万美元 [9] [10]。
- 开源生态:GitHub 星标超 29.6k,提供 Discord 社区支持 [20] [27]。
快速开始示例
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv
load_dotenv()
async def main():
agent = Agent(
task="Compare the price of gpt-4o and DeepSeek-V3",
llm=ChatOpenAI(model="gpt-4o"),
)
await agent.run()
asyncio.run(main())