當前位置: 妍妍網 > 資訊

具身智慧計算系統,機器人時代的 Android | 新程式設計師

2024-02-28資訊

【導讀】 具身智慧作為一種新興的研究視角和方法論,正在重新整理我們對智慧本質及其發展的理解:傳統的 AI 模型往往將智慧視為一種獨立於實體存在的抽象能力,而具身智慧則主張智慧是實體與其環境持續互動的結果。

本文深度剖析了具身智慧計算系統在當今社會經濟轉型中的核心角色,圍繞自主經濟的內涵、具身智慧的理念及其計算系統的挑戰與發展進行了深入闡述,展現了具身智慧如何透過提升機器人對物理世界的感知、理解和決策能力,進而重塑未來的經濟結構和社會生活。

本文精選自【 007:大模型時代的開發者】,【新程式設計師 007】聚焦開發者成長,其間既有圖靈獎得主 Joseph Sifakis、前 OpenAI 科學家 Joel Lehman 等高瞻遠矚,又有對於開發者們至關重要的成長路徑、工程實踐及趟坑經驗等,歡迎大家 。

作者 | 俞波 夏軒 劉少山

責編 | 王啟隆

出品 | 【新程式設計師】編輯部

大模型時代的社會正逐步實作從數位經濟向自主經濟的轉型,而這種轉型的核心驅動力來自機器人計算技術;其中,具身智慧計算系統代表了機器人計算技術的重要前沿方向。正如 Android 為各種手機裝置提供了一個統一而開放的作業系統,使得開發者創造出無數套用和功能,具身智慧計算系統也為機器人計算技術開啟了同樣廣闊的可能性。

具身智慧計算系統的內核為不同形態的機器人提供了感知、認知和行動的基礎能力,還允許開發者在此基礎上構建更加復雜和多樣化的機器人套用。透過這樣的系統,機器人能夠更好地理解和互動於其所處的物理世界中,從而實作更加自然和高效的服務與協作。 總而言之,具身智慧計算系統的內核驅動了多樣化機器人套用生態的發展,而具身智慧計算套用生態進一步促進了自主經濟的爆發。

自主經濟是什麽

自主經濟 the Autonomy Economy )標誌著社會轉型的新階段,主要由各式機器人( 比如自動駕駛汽車、配送機器人和無人機 )與商品及服務的融合驅動。這場經濟變革的核心在於 機器人計算 ( Autonomous Machine Computing ),即為這些多樣化機器人提供支持的關鍵計算技術 [1]

自主機器的出現預示著數位經濟模式的演變 [2] 。這些機器最開始只用於簡單的機器人技術和工業套用,現在卻已經深入我們的日常生活,宣告著自主經濟時代的到來。舉例來說,中國的一些酒店已經投入使用送餐機器人,將所需物品送至住客的房間。而在訂購食品和生活用品送達上,某些城市已經出現了機器人將餐食或商品直接送至使用者家門口的景象。在家庭環境中,機器人吸塵器更是成了家庭常備電器。

AIGC 生成圖片

在過去幾十年中,數位經濟極大促進了經濟增長。以 2005 年至 2010 年為例,互聯網經濟對成熟經濟體 GDP 增長的貢獻達到 21%,並在 2019 年為美國經濟貢獻了 2.1 萬億美元。相較於數位經濟,自主經濟預計將帶來更深遠的影響。例如,自動駕駛技術的普及預計將重塑價值 1.9 萬億美元的美國運輸行業,顯示出機器人計算將在各行各業引發革命性的變化。

為了賦能自主經濟的大爆發,當前我們的重要工作在於設計並實作先進的具身智慧計算系統,為不同形態的機器人提供腦力,類似於行動網際網路時代 Android 系統對多種行動裝置的賦能。正如智慧型手機時代 Android 系統重塑市場軟體生態一樣,對具身智慧機器人軟硬體系統的研究與開發,將引領機器人領域的重大變革,也將為機器人時代開啟新的篇章。

具身智慧是什麽?

具身智慧 Embodied AI )是一種全新的人工智慧理念,它區別於傳統人工智慧的觀念,主張智慧的產生不僅依賴演算法和算力,還需要透過與實際世界的互動來實作。這意味著,智慧體( 例如機器人 )需要具備感知環境、執行物理操作和與環境互動的能力,以便更全面地理解和掌握世界知識。

同樣的一套具身智慧系統可以賦能不同的機器人形態,使它們能夠直接與周圍環境互動和感知的智慧形式。這種智慧不僅涉及到演算法和數據處理,還包括對物理世界的理解和操作。具身智慧計算系統的技術挑戰主要包括如何使機器人能夠準確地感知環境、理解復雜的人類指令以及在多變的環境中自主作出決策和執行任務。此外,如何最佳化機器人的能量效率、處理速度和安全性也是重要的技術挑戰。

具身智慧研究跨越了機器人學、人工智慧、認知科學及神經科學等多個學科,旨在深化對智慧本質的理解。 具身智慧的挑戰在於如何構建高度適應力的感知和決策系統,使機器人能夠準確理解和預測物理世界的復雜動態,並確保機器人能以自然有效的方式與人類及其他智慧體互動。解決這些挑戰有望將智慧機器人套用推向家庭、工業、醫療和探索等多個領域,促進人機互動的自然化和任務執行的效率化。

歷史啟示——良性迴圈以及生態的重要性

機器人計算成為自主經濟轉型的關鍵,繼個人計算與移動計算之後,它成為了機器人時代不可或缺的技術核心 [3, 4] 。機器人計算支撐著從智慧汽車、自主無人機、配送機器人、家用服務機器人到農業、工業機器人等多種形態的機器人,甚至包括我們還未能想象到的機器人型別。它涵蓋了傳感技術、計算技術、通訊技術、自主控制演算法、可靠性和安全性等多個技術領域,至今仍在持續發展與演化中。

歷史上的先例明確展示了機器人計算對自主經濟發展的重要性。例如,個人計算和移動計算領域的市場規模及其對應的計算系統市場之間的相關性,展示了移動系統市場 351 億美元的價值與移動計算生態系 8000 億美元市場規模之間、個人計算系統 550 億美元的市場價值與其生態系 9000 億美元價值之間的顯著差異(參見圖 1)。這表明,隨著計算時代的演進, 計算系統行業在培育出其市場規模 15 到 25 倍的生態系方面扮演著至關重要的角色

圖 1 計算技術及其生態系的良性迴圈

這些洞察力揭示了半導體行業作為現代經濟基石的事實。隨著機器人計算等新興領域的發展,計算系統行業推動了技術創新和關鍵技術的發展,這些技術進步又反過來促進了新興領域的成長,形成了一個相互增強的發展迴圈。這一良性迴圈突顯了計算系統行業在推動未來經濟關鍵行業增長中的核心作用,尤其是在新興的自主經濟中。

算力分配決定生態規模

圖 2 移動計算生態系的發展

如圖 2 所示, 在生態系增長中,算力分配扮演了決定性角色 ,特別是在移動計算行業的演變中尤為明顯。21 世紀初期,以功能型手機為主流的行動電話雖廣泛普及,但功能受限,90% 的計算力被用於執行編解碼等基礎通訊任務。應用程式可用的計算力不足 10%,這極大限制了套用多樣性,使得移動計算生態系的市場規模僅約 100 億美元。

智慧型手機的興起改變了這一格局,激發了市場對更高計算能力的需求,以適應和支持日益增多且復雜度不斷提升的行動應用。這種需求催生了從基礎的單芯片系統到復雜的片上系統( SoC )的前進演化,這些系統整合了多核心 CPU、移動 GPU、移動 DSP 以及先進的電源管理系統。技術的這一飛躍使得高達 90% 的計算能力能夠支持 YouTube、WhatsApp、Uber 等套用,將移動計算生態系的市場規模擴張至現今的 8,000 億美元。這一發展軌跡凸顯了計算系統技術進步的革命性影響。透過支持更多樣化的套用,這些技術不僅增強了現有市場,還開辟了新的生態系,使得市場規模達到了計算系統行業價值的多倍。

具身智慧計算系統

圖 3 具身智慧計算系統

目前,家庭掃地機器人、服務機器人和無人駕駛車輛的計算系統,透過環境感知、自身定位和建圖、決策、路徑規劃和控制軟體已實作了自主移動等功能。圖 3 展示了一種具身機器人系統,其與傳統機器人計算類似,也需要地圖、決策控制、導航和運動控制等模組。

那麽,相比於傳統的機器人計算系統,具身智慧計算系統的核心不同之處是什麽,它為什麽可以直接接收人類的文字指令表示的任務,並在不需要提前為任務編程的情況下進行靈活和自主的決策?我們認為,構建具身智慧計算的關鍵在於打造能夠 融合多模態資訊的世界模型 ,以及能夠承載此類多模態模型與具身軟體的 即時高效的計算系統

  • 多模態的世界模型 :世界模型是賦能具身智慧的最關鍵軟體。

    按照 M. Mitchell 等人在【科學】雜誌的表述 [5] ,世界模型「構建針對物理世界和社會世界的抽象模型,並反映事件發生的原因而非僅僅是事件之間的相關性」。借助世界模型,機器人將能夠理解物理世界和人類社會的執行機制,並據此產生自主、靈活、可信、有益的決策。

    DeepMind 的 RT 系列模型 [6] 是構建世界模型的一次初步嘗試:透過多模態大模型處理自然語言和視覺影像,機器人能夠將命令中的資訊與物理世界的物體關聯,還能命令拆分成多個子任務,並逐個執行。

  • 即時高效的計算系統 :在一定成本範圍內,能夠高效、即時地完成傳感、計算和控制任務的計算系統是具身智慧機器人大規模套用的關鍵。

    相比於傳統機器人計算系統,多模態大模型等軟體對計算平台的算力、儲存和通訊的需求成倍增加,具身智慧計算平台的設計充滿挑戰。目前具身機器人研究中常用的計算架構是在雲端或邊緣伺服器端執行多模態大模型,在機器人端執行傳感和控制執行等任務。這類方案仍處於實驗室演示階段,仍需要大量的系統方面的研究和最佳化,才能實作規模化的部署。

  • 智慧體:具身智慧計算的套用

    在具身智慧計算系統的基礎上,多模態大模型支持的智慧體智慧( Agent AI )是具身智慧套用生態的關鍵技術 [7] 。 這些具身智慧 APP 將成為我們日常生活中無處不在的存在。

    具身智慧計算系統利用現有的基礎模型( Foundation Model )作為建立 APP 的基本構件。將 APP 嵌入到具身智慧計算系統中有助於提高機器人本體處理、理解世界資訊,以及與世界互動的能力。例如,一個能夠感知使用者行為、人類行為、環境物體、音訊表達和場景的集體情緒的 APP,可賦能機器人本體作為人類的陪伴機器人。 如果說工具是人類智慧的延申,那麽智慧體就是人工智慧的延申 。而人工智慧本身就是人類的工具,因此智慧體智慧的發展將為人類提供有史以來最強大的智慧工具。

    為了推進具身智慧 APP 的研究與套用,我們在智慧體的智慧方向開展了多項研究,成功開發了三類智慧體( 框架 )。這些智慧體將為機器人提供更強大的感知、學習、決策和行動能力,推動機器人技術與行業需求的深度融合。

  • 規劃智慧體 AIRS-Bot (見圖 4)。借助多模態大模型能力,該智慧體可以與人類進行自然語言互動、透過影像感知環境、基於文字生成影像、以及以使用者客製的語音進行互動。該智慧體能夠透過系統 prompt 扮演任意角色,並支持多種形式的 API 呼叫,可以為機器人提供行為規劃與決策能力,滿足機器人具身智慧的功能實作。

  • 圖 4 規劃智慧體 AIRS-Bot 為機器人提供行為規劃

  • 編程智慧體 AIRS-Coder (見圖 5)。該智慧體的能力包括診斷錯誤,最佳化程式碼,提供詳細的編程概念解釋,並提供各種程式語言和技術的步驟指導。該智慧體在 7B 大小的大模型基礎上,在 HumanEval 指標上 pass@1 效能達到 43.4%,超過了 CodeLlama-Python-13B 的 43.3%,用更少的參數獲得了更好的效能。該智慧體可以為機器人提供自主編程能力,滿足機器人的自主復雜操作技能需求。

  • 圖 5 編程智慧體 AIRS-Coder 可以為機器人提供自主編程能力

  • 群智智慧體框架 AIRS-Agents (見圖 6)。該智慧體框架支持定義多個不同型別的機器人智慧體以及它們的規劃智慧體,將它們構成智慧體集群並進行統一的排程規劃。不同智慧體可以呼叫不同軟體 APP 處理各自領域內的問題,也可以編程並在沙盒中執行程式碼。該智慧體可以為機器人集群提供群體智慧,實作大範圍的機器人具身智慧。

  • 圖 6 群智智慧體框架 AIRS-Agents 可以為機器人機器人集群提供群體智慧

    智慧體是具身智慧 APP 的例項,其出現和發展開啟了從人工操作軟體 APP 到智慧體自行呼叫軟體 APP 的時代,並在這一過程中推動了具身智慧的行程。隨著技術進步,我們相信 會有更多的智慧體構成龐大的具身智慧 APP 群,進一步引發智慧體呼叫軟體 APP 到機器人呼叫具身智慧 APP 的範式轉變

    結論

    具身智慧被視為人工智慧賦能於機器人的重要技術,可以將機器人從傳統的預編程模式解放出來, 賦予機器人更強的自主性和適應能力 。具身智慧的計算和套用將推動機器人技術與生產制造、服務和醫療康復等行業的深度融合,成為經濟和社會發展的重要推動因素。我們將具身智慧計算系統類比為智慧機器人領域的 Android 系統,在底層即時計算平台、世界大模型的基礎上,延伸出諸多基於機器人的套用。具身智慧技術剛剛興起,在具身軟體與套用、多模態世界模型、即時計算系統等方面面臨著挑戰。這些領域也將是學術和產業界研究的熱點。

    參考文獻

    [1] S. Liu, "The Role of Autonomous Machine Computing in Shaping the Autonomy Economy.", Communications of the ACM, https://cacm.acm.org/blogs/blog-cacm/279636-the-role-of-autonomous-machine-computing-in-shaping-the-autonomy-economy/fulltext

    [2] S. Liu, "The Transition to the Autonomy Economy and China-US Tech Competition", the Diplomat, 2023.

    [3] S. Liu, J.L., Gaudiot,"Rise of the autonomous machines." Computer, 55(1), pp.64-73, 2022.

    [4] 劉少山,甘一鳴,韓銀和,"機器人計算正在崛起:中國美國實力全面對比", 知識分子, 2024.

    [5] M. Mitchell, "AI's challenge of understanding the world". Science 382, eadm8175, 2023. DOI:10.1126/science.adm8175.

    [6] A. Brohan, et al., "Rt-2: Vision-language-action models transfer web knowledge to robotic control." arXiv preprint arXiv:2307.15818, 2023.

    [7] Z. Durante, et al., "Agent ai: Surveying the horizons of multimodal interaction." arXiv preprint arXiv:2401.03568, 2024.

    4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的「 全球機器學習技術大會 」將在上海環球港凱悅酒店舉行,特邀近 50 位技術領袖和行業套用專家,與 1000+ 來自電商、金融、汽車、智慧制造、通訊、工業互聯網、醫療、教育等眾多行業的精英參會聽眾,共同探討人工智慧領域的前沿發展和行業最佳實踐。 歡迎所有開發者朋友存取官網 http://ml-summit.org、點選「閱讀原文」或掃描下方海報中的二維碼 ,進一步了解詳情。