這個開源讓人生變得無聊，能自動操作電腦，自動玩遊戲、幫你工作，所以我們幹什麽去？

2024-07-19碼農

真正的智慧體除了情感外具備與人類一樣的能力，而智慧體的實作無疑是十分困難的。

但今天小編要介紹的框架讓我們仿佛看到了未來機器人的時代。🤖

它就是 Cradle 框架。

Cradle框架能夠透過人類使用的統一界面執行復雜的電腦任務，即以螢幕截圖作為輸入，以鍵盤和滑鼠操作作為輸出。

掃碼加入AI交流群

獲得更多技術支持和交流

計畫簡介

Cradle是一個模組化且靈活的 LMM 驅動框架。

Cradle框架由六個關鍵模組組成：資訊收集、自我反思、任務推斷、技能策劃、動作規劃和記憶。

這些模組協同工作，使Cradle能夠理解 輸入的螢幕截圖 ，並在高層次規劃之後 生成可執行的程式碼 ，以實作鍵盤和滑鼠的低層次控制。

因此Cradle 可以與任何軟體互動並完成長期復雜任務，而 無需依賴任何內建 API 。

團隊對框架的測試中，Cradle 在四個商業視訊遊戲、五個軟體應用程式和一個綜合基準OSWorld中表現出了顯著的通用性和令人印象深刻的效能。

Demo

Cradle是第一個能夠遵循主線故事情節並完成復雜3A遊戲【荒野大鏢客 2】中 40 分鐘真實任務。

Cradle還可以在【城市：天際線】中建立一座擁有一千人的城市。

Cradle在【星露谷】中耕種和收獲防風草。

Cradle在【莊家的生活 2】中交易和討價還價。

Cradle執行 Chrome、Outlook 和飛書等日常軟體。

還可以使用美圖秀秀和CapCut編輯影像和視訊。

計畫原理

Cradle能夠理解和解釋電腦螢幕以及來自任意軟體的 連續幀 之間的 動態變化 ，並能夠生成合理的電腦控制操作來進行精確執行。

下面是Cradle的框架圖，其中Cradle利用 GPT-4o 作為框架的主幹模型。

下面展示了Cradle執行任務的主要流程。

首先Cradle從螢幕幀中收集有用的視覺和文本資訊，像是布局、影像、動畫和使用者介面元素等。

然後執行每個動作後Cradle會根據收集的資訊自我反思。如果發現錯誤，Cradle會分析失敗原因並嘗試糾正不當決策。

在反思結果的基礎上，Cradle分析當前情況以推斷當前最合適的任務，並決定何時停止當前任務並開始新任務。

確定任務後，Cradle準備完成該任務的策略。它會從程式記憶中檢索有用的技能，更新技能或生成新技能。這些新技能會儲存在程式記憶中以備將來使用。

Cradle並將這些技能具體化為可執行的動作序列，生成的動作序列隨後由執行器模組執行，與環境進行互動。

Cradle極大地擴充套件了基礎agent的覆蓋範圍，使任何軟體，特別是復雜的遊戲，都可以很容易地轉換為評估agent各種能力的基準，並促進進一步的數據收集，從而為通用agent鋪平了道路。

強大的智慧體會是未來AI發展不可或缺的一步，小編期待未來更強大的agent的誕生！

🔗 計畫連結 ：

https://baai-agents.github.io/Cradle

關註「開源AI計畫落地」公眾號

與AI時代更靠近一點

關註「向量光年」公眾號

加速全行業向AI的改變

關註「 AGI光年」公眾號

獲取每日最新咨詢