真正的智能体除了情感外具备与人类一样的能力,而智能体的实现无疑是十分困难的。
但今天小编要介绍的框架让我们仿佛看到了未来机器人的时代。🤖
它就是 Cradle 框架。
Cradle框架能够通过人类使用的统一界面执行复杂的计算机任务,即以屏幕截图作为输入,以键盘和鼠标操作作为输出。
扫码加入AI交流群
获得更多技术支持和交流
项目简介
Cradle是一个模块化且灵活的 LMM 驱动框架。
Cradle框架由六个关键模块组成:信息收集、自我反思、任务推断、技能策划、动作规划和记忆。
这些模块协同工作,使Cradle能够理解 输入的屏幕截图 ,并在高层次规划之后 生成可执行的代码 ,以实现键盘和鼠标的低层次控制 。
因此Cradle 可以与任何软件交互并完成长期复杂任务,而 无需依赖任何内置 API 。
团队对框架的测试中,Cradle 在四个商业视频游戏、五个软件应用程序和一个综合基准OSWorld中表现出了显著的通用性和令人印象深刻的性能。
Demo
Cradle是第一个能够遵循主线故事情节并完成复杂3A游戏【荒野大镖客 2】中 40 分钟真实任务。
Cradle还可以在【城市:天际线】中创建一座拥有一千人的城市。
Cradle在【星露谷】中耕种和收获防风草。
Cradle在【庄家的生活 2】中交易和讨价还价。
Cradle运行 Chrome、Outlook 和飞书等日常软件。
还可以使用美图秀秀和CapCut编辑图像和视频。
项目原理
Cradle能够理解和解释计算机屏幕以及来自任意软件的 连续帧 之间的 动态变化 ,并能够生成合理的计算机控制操作来进行精确执行。
下面是Cradle的框架图,其中Cradle利用 GPT-4o 作为框架的主干模型。
下面展示了Cradle执行任务的主要流程。
首先Cradle从屏幕帧中收集有用的视觉和文本信息,像是布局、图像、动画和用户界面元素等。
然后执行每个动作后Cradle会根据收集的信息自我反思。如果发现错误,Cradle会分析失败原因并尝试纠正不当决策。
在反思结果的基础上,Cradle分析当前情况以推断当前最合适的任务,并决定何时停止当前任务并开始新任务。
确定任务后,Cradle准备完成该任务的策略。它会从程序记忆中检索有用的技能,更新技能或生成新技能。这些新技能会存储在程序记忆中以备将来使用。
Cradle并将这些技能具体化为可执行的动作序列,生成的动作序列随后由执行器模块执行,与环境进行交互。
Cradle极大地扩展了基础agent的覆盖范围,使任何软件,特别是复杂的游戏,都可以很容易地转换为评估agent各种能力的基准,并促进进一步的数据收集,从而为通用agent铺平了道路。
强大的智能体会是未来AI发展不可或缺的一步,小编期待未来更强大的agent的诞生!
🔗 项目链接 :
https://baai-agents.github.io/Cradle
关注「 开源AI项目落地 」公众号
与AI时代更靠近一点
关注「 向量光年 」公众号
加速全行业向AI的改变
关注「 AGI光年 」公众号
获取每日最新咨询