当前位置: 欣欣网 > 码农

GPTs进阶版已开源!通过大模型来访问并操作浏览器,网站验证码都能自动填写。

2024-11-29码农

不知道你们还有没有印象, 当时OpenAI GPTs的发布会,可以说是轰动整个AI行业 ,忘了也没关系,帮你们回顾下。

当时演示了几个功能,有去网站上看机票的,有。。。

结果,GPTs很快就退出历史舞台了,没搞起来。

今天给大家推荐的browser-use,其实就跟当时发布会演示的那几个功能有点像,但是它落地了,更强了,而且还开源了。

browser-use的主要功能就是通过大模型来访问并操作浏览器,执行我们给出的命令。

扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)

项目简介

Browser Use可以让AI代理能够访问和操作网络浏览器,提高与网络内容的交互能力。这个开源项目通过简化AI代理与浏览器的连接过程,支持多标签管理,自动抓取和自定义动作,以适应各种网络自动化任务。支持的功能包括视觉和HTML内容提取,自动纠错,以及通过LangChain支持多种语言模型。开发者还可以通过Python定义AI代理的行为,使其能够执行复杂的网络任务。

DEMO

1.提示词:读取我的简历并找到机器学习工作,将它们保存到文件中,然后开始在新标签页中申请这些工作,如果需要帮助,就问我。

2.提示词:在kayak.com上查找2024年12月25日至2025年2月2日从苏黎世到北京的航班。

3.解决验证码

4.提示词:在Hugging Face上查找具有cc-by-sa-4.0许可的模型,并按最多点赞排序,将前五名保存到文件中。

功能特点

1.视觉+HTML提取: 结合视觉理解和HTML结构提取,实现全面的网页交互。

2.多标签管理: 自动处理多个浏览器标签,适用于复杂工作流程和并行处理。

3.元素跟踪: 提取被点击元素的XPath,并重复精确的LLM动作,以实现一致的自动化。

4.自定义操作: 添加自己的操作,如保存文件、数据库操作、通知或处理人工输入。

5.自我修正: 智能错误处理和自动恢复,保证自动化工作流的稳健性。

6.任何LLM支持: 兼容所有LangChain LLM,包括GPT-4、Claude 3和Llama 2。

项目链接

https://github.com/gregpr07/browser-use

关注「 开源AI项目落地 」公众号

与AI时代更靠近一点

关注「 AGI光年 」公众号

获取每日最新资讯

关注「 向量光年 」公众号

加速全行业向AI转变