真正的智慧體除了情感外具備與人類一樣的能力,而智慧體的實作無疑是十分困難的。
但今天小編要介紹的框架讓我們仿佛看到了未來機器人的時代。🤖
它就是 Cradle 框架。
Cradle框架能夠透過人類使用的統一界面執行復雜的電腦任務,即以螢幕截圖作為輸入,以鍵盤和滑鼠操作作為輸出。
掃碼加入AI交流群
獲得更多技術支持和交流
計畫簡介
Cradle是一個模組化且靈活的 LMM 驅動框架。
Cradle框架由六個關鍵模組組成:資訊收集、自我反思、任務推斷、技能策劃、動作規劃和記憶。
這些模組協同工作,使Cradle能夠理解 輸入的螢幕截圖 ,並在高層次規劃之後 生成可執行的程式碼 ,以實作鍵盤和滑鼠的低層次控制 。
因此Cradle 可以與任何軟體互動並完成長期復雜任務,而 無需依賴任何內建 API 。
團隊對框架的測試中,Cradle 在四個商業視訊遊戲、五個軟體應用程式和一個綜合基準OSWorld中表現出了顯著的通用性和令人印象深刻的效能。
Demo
Cradle是第一個能夠遵循主線故事情節並完成復雜3A遊戲【荒野大鏢客 2】中 40 分鐘真實任務。
Cradle還可以在【城市:天際線】中建立一座擁有一千人的城市。
Cradle在【星露谷】中耕種和收獲防風草。
Cradle在【莊家的生活 2】中交易和討價還價。
Cradle執行 Chrome、Outlook 和飛書等日常軟體。
還可以使用美圖秀秀和CapCut編輯影像和視訊。
計畫原理
Cradle能夠理解和解釋電腦螢幕以及來自任意軟體的 連續幀 之間的 動態變化 ,並能夠生成合理的電腦控制操作來進行精確執行。
下面是Cradle的框架圖,其中Cradle利用 GPT-4o 作為框架的主幹模型。
下面展示了Cradle執行任務的主要流程。
首先Cradle從螢幕幀中收集有用的視覺和文本資訊,像是布局、影像、動畫和使用者介面元素等。
然後執行每個動作後Cradle會根據收集的資訊自我反思。如果發現錯誤,Cradle會分析失敗原因並嘗試糾正不當決策。
在反思結果的基礎上,Cradle分析當前情況以推斷當前最合適的任務,並決定何時停止當前任務並開始新任務。
確定任務後,Cradle準備完成該任務的策略。它會從程式記憶中檢索有用的技能,更新技能或生成新技能。這些新技能會儲存在程式記憶中以備將來使用。
Cradle並將這些技能具體化為可執行的動作序列,生成的動作序列隨後由執行器模組執行,與環境進行互動。
Cradle極大地擴充套件了基礎agent的覆蓋範圍,使任何軟體,特別是復雜的遊戲,都可以很容易地轉換為評估agent各種能力的基準,並促進進一步的數據收集,從而為通用agent鋪平了道路。
強大的智慧體會是未來AI發展不可或缺的一步,小編期待未來更強大的agent的誕生!
🔗 計畫連結 :
https://baai-agents.github.io/Cradle
關註「 開源AI計畫落地 」公眾號
與AI時代更靠近一點
關註「 向量光年 」公眾號
加速全行業向AI的改變
關註「 AGI光年 」公眾號
獲取每日最新咨詢