「模仿學習」後，機器人能伺候我們養老嗎？

2024-03-08情感

*本文為「三聯生活周刊」原創內容

「在模仿學習中，由人透過遠端操作為機器人展示如何完成任務的多個例子，也就是說透過操縱機器人來完成任務。然後，我們訓練一個神經網路來模仿人類示範過的例子。」

主筆 | 苗千

在2023年底，一段關於Mobile ALOHA機器人的視訊在網路上流傳，迅速引起了人們極大的興趣。視訊中，一對可以移動的機器臂在廚房和臥室裏精細地進行各種家務勞動：洗衣、做飯、打掃、整理衣物……Mobile ALOHA機器人看上去可以非常熟練地應付這些原本需要人來完成的工作。經過了解，視訊中Mobile ALOHA機器人進行的多種工作，有些是由人進行遠端操縱完成的，有些則是透過「模仿學習」由機器人自行完成的。

Mobile ALOHA計畫主要由DeepMind公司和史丹佛大學的助理教授切爾西·芬恩（Chelsea Finn）以及博士生符梓鵬、趙子豪共同完成。芬恩研究團隊接受了本刊的專訪，芬恩和符梓鵬共同回答了關於Mobile ALOHA機器人的設計制造過程，以及與「模仿學習」等相關的問題。

從左到右為符梓鵬、助理教授切爾西·芬恩及趙子豪

三聯生活周刊： 很多人都觀看了Mobile ALOHA令人印象深刻的視訊。你能否以開發者的身份向我們簡單介紹一下這個開源系統？

芬恩： 我們關於Mobile ALOHA的工作有兩個關鍵組成部份。首先，它是一個低成本的機器人和遠端作業系統，可以以一種直觀的方式為某個復雜任務（例如烹飪蝦）收集演示數據。其次，我們的工作表明，機器人可以很容易地從遠端操作中收集到的數據中學習，以自主完成一些復雜任務。最重要的是，這個機器人以及對它的訓練技術是通用的，我們利用相同的數據收集和模仿學習過程，訓練機器人完成了7項不同的任務。這7項任務包括烹飪蝦、將鍋具收納到櫥櫃中、呼叫並進入電梯、清理灑出來的東西，以及其他。

在2023年底，一段關於Mobile ALOHA機器人的視訊在網路上流傳，迅速引起了人們極大的興趣

三聯生活周刊： 在開發這款系統過程中遇到的最大的技術難題是什麽？取得的最大的突破又是什麽？

符梓鵬： 技術挑戰主要有兩方面。一方面是硬體挑戰。在過去，研究人員主要依賴從制造商那裏購買昂貴的現成移動操縱機器人（能夠移動和操縱環境中物體的機器人），並且沒有低成本、直觀且強大的移動操縱機器人或是家庭機器人的遠端作業系統。而我們透過組裝自己的硬體，並使用ALOHA進行雙手操縱和推動移動性，設計了一個高品質且低成本的遠端作業系統來解決這兩個難題。就像我們計畫網站的「遠端操作」部份所展示的，我們構建的硬體使我們可以遠端操作機器人完成以前無法實作的復雜的家庭和辦公任務。透過使用這些硬體，我們有了高品質數據收集的通道。

另一方面就是軟體/人工智慧挑戰。在過去，人們主要透過編程來明確家庭機器人的行為以完成家務（例如，先編程機器人靠近冰箱，然後停下，然後移動手臂去拿蘋果等），想要讓機器人可靠地完成現實世界的任務，就需要大量的編程和手動調整，這是不實際的。我們采用了數據驅動的人工智慧方法，使用人類示範數據來教授機器人（即模仿學習）。我們展示了模仿學習，結合了共同訓練技術，利用少量的、大約50次的演示（大約1小時人類數據），就可以教授機器人新的自主技能。透過使用這種軟體/人工智慧方法，我們就有了高品質數據使用的通道。

最重要的是，我們將硬體和軟體一起設計，硬體的數據收集通道與軟體很好地協同工作，而且軟體訓練的模型也能很好地與硬體協同工作。

三聯生活周刊： 這套系統套用了Action Chunking with Transformers（ACT）, 它與Genera-tive Pre-trained Transformers（GPT）有什麽相同和不同的地方？

芬恩： 這兩個模型都基於一種相似的神經網路架構，即轉換器。然而，GPT是一個語言模型，訓練用於從網路數據中預測一系列的語言標記。而ACT是一個用於從影像中預測一系列機器人運動指令的模型。

【我，機器人】劇照

三聯生活周刊： 能否簡單介紹一下什麽是「模仿學習」（imitation learning）？

芬恩： 在模仿學習中，由人透過遠端操作為機器人展示如何完成任務的多個例子，也就是說透過操縱機器人來完成任務。然後，我們訓練一個神經網路來模仿人類示範過的例子。

三聯生活周刊： 在Mobile ALOHA完成的多項任務中，有些是透過遠端控制（teleoperation），有些則是透過模仿學習自主完成的（autonomous）。在未來開發中，如何平衡對機器的控制（control）和自主學習（autonomous learning）？

符梓鵬： 我們希望在收集到足夠的數據後，機器人能夠自主完成遠端操作視訊中展示的所有任務。

三聯生活周刊： 能夠生成文字、影像和程式的人工智慧主要是透過大量的文字和影像數據進行學習。對於機器人來說，它透過怎樣的數據進行學習？是否可以透過錄像或是真人的演示來學習某個動作？

芬恩： Mobile ALOHA目前是從人類提供的遠端操作演示中進行學習的。我們的一些其他機器人也可以透過試錯進行自我提升，還有其他研究人員正在嘗試讓仿人類機器人從人類的視訊和網路上的其他數據中進行學習。

三聯生活周刊： 自從人工智慧成為全世界的焦點以來，整個2023年人們都在進行關於人工智慧道德的辯論。對於人形機器人（humanoid）來說，如果受到了不恰當的訓練，就可能對人類社會造成危害。那麽作為開發者你認為該如何預防這樣的情況發生？

符梓鵬： 這些機器人，包括仿人類機器人在內，目前距離能具有對人類社會構成風險的普遍智慧行為還非常遙遠。

【機器紀元】劇照

三聯生活周刊： 你們為什麽選擇對於硬體和演算法完全開源？

芬恩： 我們開源這個計畫是希望： 第一，推動這項令人感到興奮的在機器人領域的實際研究，為大眾利益服務；第二，吸引更多人參與家庭、辦公室、廚房機器人的研究工作。 目前我們還沒有任何商業計劃。

三聯生活周刊： Mobile ALOHA的預算只有2萬美元。如果有了更高的預算和更多的資源，你們的下一步研究目標是什麽？

芬恩： 需要澄清的是，Mobile ALOHA的預算是3.2萬美元。如果硬體預算更高的話，我們可以在機器人上加裝更多的傳感器（例如手指上的觸覺傳感器）。我們還可以擴大機器人的活動範圍，比如說增加一個軀幹以提高或降低手臂。

三聯生活周刊： 關於在老年人護理中采用像Mobile ALOHA這樣機器人的問題一直存在爭議，而事實是在這個領域中熟練的護士日益短缺。在你看來，我們離充分利用這種機器人技術來幫助老年人進行護理還有多遠？

符梓鵬： 在老年人護理方面，目前人類仍然更加有效。也許在將來，機器人可以幫助人類進行護理，但並不一定會取代人類。

三聯生活周刊： 我們觀察到了「模仿學習」在指導Mobile ALOHA機器人執行高度復雜的任務時的有效性。然而，將「強化學習」套用於同樣的目的並沒有取得同樣成功的結果。在你看來，哪種學習機制在該領域更有前景？

芬恩： 模仿學習和強化學習對機器人都很有用，並且可以提供互補的效果。模仿學習是一種高效的方式，可以透過人類演示來教授機器人，而強化學習使機器人能夠在較少的人類指導下進行自我提高。我預計，在未來兩者都將在開發高能機器人方面發揮重要的作用。

「點贊」「在看」，讓更多人看到

排版：樹樹 / 稽核：楊逸

招聘｜實習生、撰稿人

詳細崗位要求點選跳轉：

本文為原創內容，版權歸「三聯生活周刊」所有。 歡迎文末分享、點贊、在看三連！ 未經授權，嚴禁復制、轉載、篡改或再釋出。

大家都在看

「點贊」「在看」，讓更多人看到