當前位置: 妍妍網 > 碼農

GPTs進階版已開源!透過大模型來存取並操作瀏覽器,網站驗證碼都能自動填寫。

2024-11-29碼農

不知道你們還有沒有印象, 當時OpenAI GPTs的釋出會,可以說是轟動整個AI行業 ,忘了也沒關系,幫你們回顧下。

當時演示了幾個功能,有去網站上看機票的,有。。。

結果,GPTs很快就結束歷史舞台了,沒搞起來。

今天給大家推薦的browser-use,其實就跟當時釋出會演示的那幾個功能有點像,但是它落地了,更強了,而且還開源了。

browser-use的主要功能就是透過大模型來存取並操作瀏覽器,執行我們給出的命令。

掃碼加入AI交流群

獲得更多技術支持和交流

(請註明自己的職業)

計畫簡介

Browser Use可以讓AI代理能夠存取和操作網路瀏覽器,提高與網路內容的互動能力。這個開源計畫透過簡化AI代理與瀏覽器的連線過程,支持多標簽管理,自動抓取和自訂動作,以適應各種網路自動化任務。支持的功能包括視覺和HTML內容提取,自動糾錯,以及透過LangChain支持多種語言模型。開發者還可以透過Python定義AI代理的行為,使其能夠執行復雜的網路任務。

DEMO

1.提示詞:讀取我的簡歷並找到機器學習工作,將它們保存到檔中,然後開始在新分頁中申請這些工作,如果需要幫助,就問我。

2.提示詞:在kayak.com上尋找2024年12月25日至2025年2月2日從蘇黎世到北京的航班。

3.解決驗證碼

4.提示詞:在Hugging Face上尋找具有cc-by-sa-4.0授權的模型,並按最多點贊排序,將前五名保存到檔中。

功能特點

1.視覺+HTML提取: 結合視覺理解和HTML結構提取,實作全面的網頁互動。

2.多標簽管理: 自動處理多個瀏覽器標簽,適用於復雜工作流程和並列處理。

3.元素跟蹤: 提取被點選元素的XPath,並重復精確的LLM動作,以實作一致的自動化。

4.自訂操作: 添加自己的操作,如保存檔、資料庫操作、通知或處理人工輸入。

5.自我修正: 智慧錯誤處理和自動恢復,保證自動化工作流的穩健性。

6.任何LLM支持: 相容所有LangChain LLM,包括GPT-4、Claude 3和Llama 2。

計畫連結

https://github.com/gregpr07/browser-use

關註「 開源AI計畫落地 」公眾號

與AI時代更靠近一點

關註「 AGI光年 」公眾號

獲取每日最新資訊

關註「 向量光年 」公眾號

加速全行業向AI轉變