大家好,我是开源君!
当前动化技术和 AI 的发展日新月异,而浏览器作为我们日常工作和生活中必不可少的工具,其自动化操作的需求也日益增长。但手动操作浏览器不仅费时费力,还容易出错。
今天给大家带来一个超级炫酷的开源项目 - Browser Use
,能让你的 AI 助手像人类一样操控网页,从此你的工作效率将直线上升。
项目简介
Browser Use
是一个开源库,用 Python 写的,专门让 AI 来控制浏览器完成各种任务。它结合了自然语言处理、Playwright(一个浏览器自动化工具)和大型语言模型(比如 GPT-4、Claude 等),让 AI 能够像人类一样浏览网页、点击链接、填写表单、提取信息,甚至还能做更复杂的操作,比如自动找工作、写文档、保存文件等等。
这个项目在 GitHub 上已经火得不行了,Star 数都已经 21.4K 了!而且它的社区也很活跃,大家都在分享各种有趣的用法,比如用它来自动订机票、监控商品价格、写感谢信之类的。
性能特色
- 支持多标签页管理:在处理复杂的网页任务时,Browser Use 能够自动管理多个标签页,确保 AI 代理能够高效地在不同页面之间切换。
- 视觉识别与内容提取:Browser Use 能够自动解析网页内容,提取出文本、图片等视觉元素以及 HTML 结构,为 AI 代理提供丰富的输入信息。
- 支持多种 LLM:Browser Use 与 LangChain 紧密集成,支持使用任何 LangChain 支持的 LLM 模型。这意味着你可以根据自己的需求选择合适的 LLM 模型,以实现最佳的自动化效果。
- 自我纠正机制:在处理网页任务时,Browser Use 通过提供自我纠正机制,在发现错误时重新尝试或调整策略,从而提高了自动化任务的成功率。
快速安装使用
快速上手 Browser Use 很简单的,先要安装 Browser Use 及其依赖项。可以使用 pip 命令来完成安装:
pip install browser-use playwright
playwright install
然后,在.env
文件中配置大模型 API 密钥,例如:
LANGCHAIN_API_KEY=your_langchain_api_key
PLAYWRIGHT_BROWSER_TYPE=chromium # 指定浏览器类型,如chromium、firefox等
接下来,就可以开始写代码啦!下面是一个简单的示例,展示了如何使用 Browser Use 来自动化查找从巴厘岛到阿曼的单程航班,并在 Google Flights 上返回最便宜的选项:
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
async def main():
# 初始化AI代理,并设置任务描述和LLM模型
agent = Agent(
task="Find a one-way flight from Bali to Oman on 12 January 2025 on Google Flights. Return me the cheapest option.",
llm=ChatOpenAI(model="gpt-4") # 这里使用GPT-4模型,你可以根据需求选择其他模型
)
# 运行AI代理并获取结果
result = await agent.run()
print(result)
# 运行主函数
asyncio.run(main())
只需几行代码,就能让 AI 帮你完成复杂的网页操作,是不是很方便?
项目体验展示
Browser Use 的应用场景非常广泛,比如自动查找航班信息、数据收集、监控商品价格、自动填写表单、自动写文档等等。
自动查找航班信息
数据收集
自动写文档
Browser Use
是一个非常实用的开源项目,它极大地拓展了自动化应用的边界,让 AI 助手能够像人类一样操控网页。无论是开发者还是普通用户,都能从中受益。未来,随着 AI 技术的不断发展和浏览器自动化需求的日益增长,Browser Use 有望成为更多人的首选工具之一。
更多细节功能,感兴趣的可以到项目地址查看:
项目地址: