不知道你們還有沒有印象, 當時OpenAI GPTs的釋出會,可以說是轟動整個AI行業 ,忘了也沒關系,幫你們回顧下。
當時演示了幾個功能,有去網站上看機票的,有。。。
結果,GPTs很快就結束歷史舞台了,沒搞起來。
今天給大家推薦的browser-use,其實就跟當時釋出會演示的那幾個功能有點像,但是它落地了,更強了,而且還開源了。
browser-use的主要功能就是透過大模型來存取並操作瀏覽器,執行我們給出的命令。
掃碼加入AI交流群
獲得更多技術支持和交流
(請註明自己的職業)
計畫簡介
Browser Use可以讓AI代理能夠存取和操作網路瀏覽器,提高與網路內容的互動能力。這個開源計畫透過簡化AI代理與瀏覽器的連線過程,支持多標簽管理,自動抓取和自訂動作,以適應各種網路自動化任務。支持的功能包括視覺和HTML內容提取,自動糾錯,以及透過LangChain支持多種語言模型。開發者還可以透過Python定義AI代理的行為,使其能夠執行復雜的網路任務。
DEMO
1.提示詞:讀取我的簡歷並找到機器學習工作,將它們保存到檔中,然後開始在新分頁中申請這些工作,如果需要幫助,就問我。
2.提示詞:在kayak.com上尋找2024年12月25日至2025年2月2日從蘇黎世到北京的航班。
3.解決驗證碼
4.提示詞:在Hugging Face上尋找具有cc-by-sa-4.0授權的模型,並按最多點贊排序,將前五名保存到檔中。
功能特點
1.視覺+HTML提取: 結合視覺理解和HTML結構提取,實作全面的網頁互動。
2.多標簽管理: 自動處理多個瀏覽器標簽,適用於復雜工作流程和並列處理。
3.元素跟蹤: 提取被點選元素的XPath,並重復精確的LLM動作,以實作一致的自動化。
4.自訂操作: 添加自己的操作,如保存檔、資料庫操作、通知或處理人工輸入。
5.自我修正: 智慧錯誤處理和自動恢復,保證自動化工作流的穩健性。
6.任何LLM支持: 相容所有LangChain LLM,包括GPT-4、Claude 3和Llama 2。
計畫連結
https://github.com/gregpr07/browser-use
關註「 開源AI計畫落地 」公眾號
與AI時代更靠近一點
關註「 AGI光年 」公眾號
獲取每日最新資訊
關註「 向量光年 」公眾號
加速全行業向AI轉變