文 | 王啟隆
出品丨AI 科技大本營(ID:rgznai100)
近日,27 歲天才創始人 Joel Hellermark 分享了自己和「AI 教父」 Geoffery Hinton 的最新采訪。Hinton 在對話中回憶自己的人工智慧生涯,談論 神經網路、Scaling Law、多模態學習、模擬計算和人工智慧倫理安全 等多個話題,並聊了聊他的得意門生 Ilya Sutskever ( )。
Geoffery Hinton
受訪者非常「重量級」,但采訪者其實也不容小覷。Joel Hellermark 自幼在東京長大,13 歲開始編碼,14 歲創立了一家視訊推薦公司。在一家數位廣告公司工作後,他於 19 歲創辦了 人工智慧研究實驗室 Sana(當時還不叫 Sana AI,而是叫 Sana Labs),並在 2023 年的時候籌齊 8000 萬美元融資。
Joel Hellermark
Hellermark 堅信學習的力量,所以他沒有選擇上大學 ,而是透過史丹佛公開的課程學習如何編碼 。他創辦 Sana 公司的目標就是四個字:「改變教育」。Hellermark 希望透過培養員工學習和存取資訊的能力,來提高員工的工作效率。
話不多說,以下是采訪全文:
人工智慧生涯:從研究大腦開始
Hellermark: 你是什麽時候開始編程的?
Hinton: 我從英國剛到卡內基梅隆大學的時候。
1982 年
Hinton 前往 卡內基梅隆大學
他在那擔任 電腦科學系教授
直至 1987 年
我在英國的研究單位時,每晚六點鐘大家都會去酒吧喝一杯。
但到了 卡內基梅隆 幾周後,我還沒交到多少朋友。所以在 某個周六晚上,我發現自己 不知道該做什麽,於是決定去實驗室編寫一些程式:因為實驗室裏有一台 Lisp 機器 ,家裏沒有。
Lisp 機器
所以,我在那個周六晚上的九點左右前往卡內基梅隆的實驗室,裏面人聲鼎沸,所有學生都在那裏研究未來,他們相信自己接下來要做的事情將會改變電腦科學的行程。這與我在英國看到的情況截然不同,令我耳目一新。
Hellermark : 能不能把我們帶回一切的起點 —— 劍橋時期的 Geoffrey( ~ 1970 年 ),試圖理解人腦。腦研究是什麽樣的體驗?
Hinton : 非常令人失望 。我為了研究大腦,先是去學習 生理學 。在夏季學期,( 劍橋的 )老師打算教我們大腦是如何工作的,但實際上他們只教了我們神經元如何傳導動作電位……這非常有趣,但不是大腦工作的原理。所以,那堂課真是令人極度失望。
於是我又轉向了 哲學 ,因為我以為他們會告訴我心靈是如何運作的。結果也是非常令人失望。最終,我選擇到愛丁堡學習 人工智慧 。人工智慧倒是更有趣一些,至少我可以模擬事物,從而測試理論。
1978 年
在 愛丁堡大學
Hinton 獲得了 人工智慧博士學位
Hellermark : 你還記得是什麽激起了你對人工智慧的興趣嗎?是一篇論文嗎?還是某位特定的人向你介紹了這些想法?
Hinton : 我想是因為 唐納·赫布( Donald Hebb ) 的一本書,它對我影響很大。裏面介紹了如何學習神經網路中的連線強度。
Donald Hebb 曾在【 行為的組織 】一書中
提出了著名的「突觸學習學說」
早期我還讀過 約翰·馮·紐曼( John von Neumann ) 的一本書( 【電腦與人腦】 ),書裏介紹了大腦的計算方式以及大腦計算與普通電腦的區別。
Hellermark : 當時你是否確信書裏的這些學說?你的直覺是什麽?
Hinton : 我當時的想法是,大腦學習肯定有其獨特的方式。顯然,大腦不是透過預設各種程式,再運用邏輯推理規則 —— 從一開始我就覺得這種方法很荒謬。所以我們必須弄清楚大腦是如何 在神經網路中調整連線以完成復雜任務 的。馮·諾依曼和 圖靈( Alan Turing ) 都相信這一點,他們二人在邏輯方面都很出色,且他們並不認同這種邏輯方法。
Hellermark : 你是如何平衡「 研究神經科學 」和「 開發 AI 演算法 」的?你早期從神經科學研究中獲得了多少靈感?
Hinton : 其實 我並沒有深入研究過神經科學,我只是常被大腦工作原理的相關知識所啟發 。大腦中有大量的神經元,它們執行「 相對簡單 」的操作 —— 透過神經元接收輸入、進行加權處理並產生輸出,以及透過調整權重來最佳化整體功能 —— 在概念上,這些操作聽起來很簡單,但實際上並非如此, 問題在於如何調整這些權重以使整個系統實作有益的功能 。
Ilya:憑直覺思考的天才
Hellermark : 你還記得以前經歷過的合作嗎?
Hinton : 我在卡內基梅隆大學時曾與 泰隆斯·塞諾夫斯基( Terry Sinofsky ) 有過許多交流,他當時在巴爾的摩( Baltimore )的約翰霍普金斯大學( Johns Hopkins )。
Terrence Sinofsky
我們每個月定期聯絡,要麽他開車來匹茲堡,要麽我開車去巴爾的摩。兩地相距 250 英裏( 相當於從北京到石家莊的距離 )。我們會一起度過一個周末,共同研究 波茲曼機 ( Boltzmann Machines,由波茲曼分布得名 ) 。 那是我做過的最令人興奮的研究 ,並且產生了很多非常有趣的技術成果,我們曾一度以為那就是大腦的工作方式。
1985 年
Hinton 和 Sinofsky 發明了 波茲曼機
這是隨機神經網路和迴圈神經網路的一種
我還與 彼得·布朗( Peter Brown ) 有過一次非常好的交流,他是一位非常優秀的統計學家,在 IBM 從事語音辨識工作。後來他作為一個更成熟的學生來到卡內基梅隆大學攻讀博士學位( 編者註:實際上,Hinton 是 Brown 的博導 )。
Brown 教會我許多關於語音的知識,甚至還幫助我弄懂了 隱馬可夫模型 ( Hidden Markov Model, HMMs )。 我認為我從他那裏學到的比他學到的多,而這就是我想要的那種學生 。
當時我正在著手於帶有類似結構的網路進行 反向傳播 ( backpropagation )研究,但尚未采用「隱藏層」這一明確命名。Brown 讓我受到了隱馬可夫模型中「隱藏」狀態概念的啟發,使得我們後來共同決定采用「 隱藏層 」( hidden layers )一詞來描述神經網路中那些 無法直接觀測、卻對模型學習和預測起到關鍵作用 的中間層。
Hellermark : 請帶我們回憶你的另一位學生 —— Ilya Sutskever 。
Hinton : 我當時在我的辦公室裏編程,時間可能是某一個周日。突然有人敲門 —— 不是普通的敲門聲,而是有點...幾乎是急促的敲門聲。於是我走過去開門,門口站著一位年輕的學生。他告訴我,比起暑期炸薯條的工作,他更渴望能在我的實驗室工作。所以我告訴他,「 那你為什麽不預約一下,我們談談呢? 」
Ilya 說:「 那就現在談談吧! 」 這正是他的性格。
所以我們聊了一會兒,我給了他一篇論文閱讀,那是關於反向傳播的【自然】( Nature )論文。我們約定一周後再見面,他回來後說:「 我沒看懂。 」
我感到非常失望。我想:「 他看起來挺聰明的,但這只是鏈式法則而已。理解起來並不難。 」
他卻說:「 哦,不,不,那個我懂。我只是不明白 —— 為什麽不直接將梯度(即損失函式相對於模型參數的導數)套用於一個更合理的函式最佳化器呢? 」 後來,這個問題成為了我們多年研究探討的重點。Ilya 就是這樣,他對事物的 直覺 總是非常敏銳。
左一為 Ilya ,右一為 Hinton
中間則是 Alex Krizhevsky
三人合作設計了 AlexNet
在 ImageNet 比賽取得了冠軍
Hellermark : 你認為是什麽讓 Ilya 有著這樣的直覺?
Hinton : 我不知道。我覺得他總是獨立思考。他從小就對人工智慧感興趣,且他顯然數學很好,所以...很難確切知道原因。
Hellermark : 你們倆是如何交流的?你們各自扮演著什麽樣的角色?
Hinton : 非常有趣。
我記得有一次我們試圖用數據制作復雜的地圖,其中用到了混合模型, 目標是 利用相同的相似性集合生成兩張地圖 。在一張地圖上,「 bank(銀行) 」可能靠近「 greed(貪婪) 」,而在另一張地圖上,「 bank(銀行) 」則可能靠近「 river(河流) 」。
由於在一張地圖上, 「bank」 不能同時靠近 「greed」 和 「river」 這兩個相距甚遠的詞語。因此,我們需要建立地圖的混合體。這項工作在 MATLAB 編程環境中進行,需要大量重構程式碼以實作正確的矩陣乘法操作。
在這個過程中,Ilya 對反復修改程式碼感到厭煩。有一天他告訴我, 「 我要為 MATLAB 編寫一個介面,這樣我就可以用另一種語言編程,從而直接將其轉換成 MATLAB 程式碼。 」
我告訴他:「 不行,Ilya,這會花掉你一個月的時間。我們得繼續推進這個計畫。別被那個分心了。 」
Ilya 卻說:「 沒關系,我今天早上已經搞定了。 」
Hellermark : 哈哈,真 是令人難以置信。 在這些年裏,最大的轉變不僅僅是演算法,還有 規模 ( scale )。你是如何看待這些年來的數據規模增長?
Hinton : Ilya 很早就有了「 增加規模會有更好效果 」的直覺 。他一直主張「 只要模型做得更大,效果就會更好 」,而我起初認為這只是逃避復雜問題的一種方式,告訴他「 除了擴大規模,還需要有新的創意和想法 」。
事實證明, Ilya 的觀點基本上是對的,雖然新想法如 Transformer 架構確實帶來了很大幫助,但真正推動進步的是數據規模的擴大和計算能力的提升 。在早期,我們未曾預料到電腦的速度會提高上億倍 —— 我們原本預計最多只能提升百倍。因此,我們當時一直嘗試透過巧妙的創新想法來解決問題,而實際上,如果當時就有如今這麽大規模的數據和計算能力,許多問題可能早已迎刃而解。
大約在 2011 年,我和 Ilya 以及另一位研究生 詹姆士·馬丁( James Martens ) 合作了一篇論文,利用維基百科( Wikipedia )作為資料來源,嘗試預測下一個 HTML 字元,結果出奇地好。我們一直對模型的表現感到驚訝:雖然我們不敢確定模型是否真的理解了內容,但從表現上看仿佛它確實理解了一樣,令人難以置信。
James Martens
在數屆 機器學習國際會議(ICML) 上
他們師徒三人 多次合作發表論文
後來, Martens 加入了 Google Deepmind
Hellermark : 你在選拔人才的時候主要依靠 直覺 還是 反復的揣度 ?當 Ilya出現在你面前時,你的第一印象是「這是個聰明人,我想和他合作。」 ——還是對此有更多思考?
Hinton : 有時候就是說不上來為什麽。和 Ilya 交談不久後,他給我的感覺是「 非常聰明 」。然後再和他多聊一會兒,我就發現他顯然不僅非常聰明,而且直覺很好,數學也很強。所以選擇他根本不需要猶豫。
還有一位同樣傑出的人才,那是在某次 NIPS 會議上,我們貼了一張海報,這時有人走過來開始詢問關於海報的問題。他提出的每一個問題都深入洞察了我們工作的不足之處。五分鐘後,我就向他提供了博士後職位。那個人就是 David Mackay ,我很遺憾他去世了( Mackay 在 2016 年因胃癌逝世 )。
David Mackay
優秀的學生型別多樣,有的人可能在技術創新上不那麽突出,但在技術實作上極為出色;另一些人可能技術實力一般,但極其富有創造力。理想情況下,最好的人才是二者的結合體,但現實中並不總是能找到這樣的人。在實驗室環境下,我認為需要集合多種型別的學生,這樣才能促進團隊的多樣性和創新能力。但我仍然相信直覺,有些人的直覺就是天生敏銳的。
Hellermark : 所以為什麽有些人的直覺更好?我們能培養這種直覺嗎?
Hinton : 擁有更好直覺的人通常不會接受無用的資訊 。盲目相信所聽到的一切,會導致形成模糊且不具備辨別力的思維框架,這是無益的。相反,那些擁有清晰思維框架的人,會在接收新資訊時嘗試將其與自己的認知框架相匹配,如果新資訊不符合框架,則會選擇拒絕。
我認為, 擁有一個堅定的世界觀並據此篩選資訊 ,是培養良好直覺的關鍵路徑。如果你的直覺已經被驗證是良好的,就應該相信它們。而對於直覺不佳的人來說,無論采取何種策略,效果可能都差不多,因此他們也可以選擇相信自己的直覺。
Scaling Law:GPT-4 的創造力甚至會超過人類
Hellermark : 可以為我們科普一下這些模型是如何訓練來 預測 下一個單詞( predict the next word ) 的嗎?為什麽說這是一種錯誤的思維方式?
Hinton : 我其實並不認為這是錯誤的思考方式。實際上,我制作了第一個 使用嵌入和反向傳播的神經網路語言模型 。數據非常簡單,只運用了三元組。它將每個符號轉換為嵌入,然後讓這些嵌入交互作用以預測下一個符號的嵌入,並從那裏預測下一個符號。然後透過整個過程的反向傳播來學習這些三元組,我的研究相當於展示了它的 泛化能力 。
大約 10 年後, 約書亞·本吉奧( Yoshua Bengio,和 Hinton 齊名的 「人工智慧三教父」 ) 使用了一個非常類似的網路,並展示了它 在真實文本上的效果 。
Yoshua Bengio
在 麥吉爾大學 讀研究生時
Bengio 讀到了 Hinton 的論文
從此他堅定地走在神經網路的道路上
度過了「AI 冬天」最寒冷的時期
他和 Hinton、LeCun 共同獲得了 2018 年圖靈獎
然後再過了 10 年,語言學家們開始相信嵌入的概念,所以這是一個緩慢的過程。我認為 預測下一個詞不僅僅是基於統計的簡單預測 ,比如傳統自動補全那樣基於詞頻的匹配。在現代語言模型中,為了準確預測下一個詞,模型必須理解上下文,這涉及到對問題或對話內容的理解。因此,預測下一個詞的行為實際上迫使模型去理解語境,這種理解方式與人類的思維方式有相似之處。
盡管外界有人質疑這些模型缺乏像人類一樣的推理能力,但隨著模型規模的擴大,即使沒有特別設計用於推理的元件,它們也展現出了推理的能力,並且 隨著規模繼續增長,它們的推理能力也將隨之增強 。
Hellermark : 是什麽讓 AI 模型能夠學習如此廣泛的領域?
Hinton : 這些大語言模型所做的,是尋找共同的結構 。透過發現共同結構,它們可以使用這種共同結構來編碼事物,因為這樣更高效。
讓我給你舉個例子。如果你問 GPT-4,「 為什麽堆肥堆像原子彈? 」
大多數人無法回答這個問題,他們從未考慮過這一點,而是會認為原子彈和堆肥堆是非常不同的東西。但 GPT-4 會告訴你:「 嗯,它們的能量規模非常不同,時間規模也非常不同。但相同的是,當堆肥堆變熱時,它產生的熱量更快。而當原子彈產生更多中子時,它產生的中子更快 。 」
顯然,GPT-4 能從這個問題 理解並聯想到 鏈式反應 的概念。正是利用這種理解, 將所有資訊壓縮到其權重中 。如果它正在這樣做,那麽它也將對數百種我們尚未看出類比的事物進行同樣的處理,而這正是 創造力產生 的地方,源自於在表面上截然不同的事物之間看到這些類比。
因此,我認為 GPT-4 在規模擴大後,將會變得非常有創造力 。我認為那種認為「 它只是在重復所學知識的觀點,只是在拼湊已經學過的文本 」的觀點是完全錯誤的。 它的創造力甚至會超過人類 。
Hellermark : 「人工智慧不會僅僅重復我們迄今為止發展的人類知識,而且有可能實作超越」……我認為這是我們尚未完全見識到的, 我們基本上仍處於當前科學水平。你認為什麽將使人工智慧超越人類?
Hinton : 我們在更有限的情境中已經見過這種情況。
以 AlphaGo 為例,在與 李世石 的那場著名比賽中, 第 37 手 ,AlphaGo 下了一步所有專家都認為必定是失誤的棋,但實際上後來他們意識到這是一步妙手。所以那是在圍棋這種有限領域內的創造性。我認為 隨著這些系統變得更大,我們會看到更多這樣的情況 。
「傳奇落子」 第 37 手(Move 37)
Hellermark : AlphaGo 的不同之處還在於它使用了 強化學習 ,這使它能夠超越當前的狀態。它最初是從模仿學習開始的,觀察人類如何玩遊戲,然後透過自我對弈,發展得遠超於此。你認為這是否是當前機器學習缺失的要素?
Hinton : 我認為這很可能是一個缺失的要素,沒錯。
AlphaGo 和 AlphaZero 的自我對弈是其能夠做出這些創造性走法的重要原因。但我不認為這是完全必要的。很久以前我做過一個小實驗,就是訓練一個神經網路來辨識手寫數位,即 MNIST 的案例。
我故意在手寫數位辨識任務的訓練集中加入了 50% 的錯誤標簽, 並保持這種狀態。因此它不能透過簡單地看到相同的例子,有時是正確答案,有時是錯誤答案,來平均消除錯誤。 而即便如此, 神經網路透過反向傳播訓練後,依然能夠將錯誤率降低到 5% 或更低 。這意味著網路有能力從錯誤中學習,區分哪些數據標記可能是錯誤的,並且從中提取出正確的模式 。
這就是聰明的學生有時候能比他們的導師更聰明的原因。當導師告訴學生 所有 的資訊時,有一半會被聰明的學生認為是「廢話」,左耳朵進右耳朵出;還有另一半知識被學生們吸取,最終導致學生變得比導師更聰明。
所以 實際上 這些 大型神經網路的表現可以遠超其訓練數據,而大多數人沒有意識到這一點 。
MNIST 數據集
Hellermark : 那麽,你期望如何在人工智慧模型中加入推理能力呢?是 透過一種思維鏈的方式讓模型自我反饋其推理過程 ,還是說 模型不斷增長就能自然提升推理能力 ?
Hinton : 我的直覺是, 隨著人工智慧模型,尤其是大語言模型的規模擴大,它們在推理能力上將自然地得到提升 。
我想將這一過程與人類的認知過程相比較。人類透過直覺進行初步判斷,並利用推理來修正和完善這些直覺。同樣,AlphaGo 和 AlphaZero 這類系統透過結合直觀的評估函式與深入的 蒙地卡羅樹搜尋 ( Monte Carlo rollout )來最佳化決策,這種機制允許模型不僅僅模仿人類已有的知識和行為,還能在某種程度上創新。這正是 AlphaGo 能夠做出第 37 步那種創造性走法的原因。它擁有更多的訓練數據,可以使用推理來檢查下一步正確的走法應該是什麽。
人腦解密:符號與向量的共生
Hellermark : 你對多模態有什麽看法?多模態是如何影響人工智慧模型理解和生成類比的能力的?—— 我的意思是, 當模型不僅僅處理語言,還能處理影像、視訊和聲音等多媒體資訊時,這將如何改變模型的本質和能力 ?
Hinton : 多模態輸入會讓模型有顯著的改進 ,尤其是在理解空間關系和物體方面。例如,一個能夠「看」並「操作」物體的多模態系統相比僅依賴語言的系統,能更深刻地理解物體。雖然語言可以傳達大量資訊,但多模態學習因為結合了多種感官輸入,提供了更加豐富的上下文,使得學習過程更為直接和高效。
而且,利用多模態數據( 如預測 YouTube 視訊的下一幀 )可以讓模型獲得更多的訓練數據,同時減少對語言的依賴。因此,我認為這些 多模態模型顯然將會占據主導地位 。透過這種方式,你可以獲取更多數據。它們需要的語言更少。這裏其實有一個哲學觀點,即 你可以僅透過語言學習到一個非常好的模型,但從多模態系統中學習要容易得多 。
Hellermark : 你認為這將如何影響模型的推理能力?
Hinton : 我認為它將大大提高模型對空間等事物的推理能力。比如推理當你拿起物體時會發生什麽。如果一個機器人真的嘗試拿起物體,它就能獲得各種有助於訓練的數據。
Hellermark : 你認為人類大腦是為了適應語言而前進演化的嗎?還是說,語言為了適應人類大腦而發展的?
Hinton : 這是一個非常好的問題。我認為 - 兩者都發生了 。我曾認為我們可以在不依賴語言的情況下進行大量認知活動。現在我的看法有所改變。讓我給你介紹三種不同的語言觀及其與認知的關系。
首先是傳統的 符號觀 ,即認知是 基於明確、抽象的邏輯符號及符號操作 ,暗示語言與邏輯思維緊密相連,幾乎構成認知的核心機制。這一觀點傾向於認為人類大腦和語言是協同前進演化的,各自適應對方的存在與發展。所以,這是一種極端的觀點
與之相反的極端觀點是,你的大腦內部全都是 向量 。這種觀點認為, 符號進入大腦會轉換成大型向量,所有內部處理都是透過大型向量完成的 。然後,如果你想生成輸出,就再次生成符號。大約在 2014 年,機器轉譯領域有一個階段,人們使用迴圈神經網路,單詞不斷輸入時會有一個隱藏狀態,並且在這個隱藏狀態中不斷積累資訊。所以當他們到達句尾時,他們會得到一個大的隱藏向量,這個 向量捕捉了該句子的意義,然後可以用來在另一種語言中生成句子 。這被稱為 思想向量 ,是對語言的第二種看法。
但還有一種第三種觀點,即 我現在所相信 的,那就是 語言和思維過程中確實涉及符號,但這些符號透過多層次的嵌入表示( embedding representation )被豐富化了 。但是,這些嵌入仍然與符號相關聯,意味著 每個符號都有一個大的向量,這些向量交互作用,以產生下一個詞的符號向量 。這就是所謂的「 理解 」。
「 理解 」就是知道如何將符號轉換成這些向量,以及知道這些向量的元素應該如何交互作用來預測下一個符號的向量 。這就是大語言模型和我們大腦中的理解。這是一個介於兩者之間的例子。你仍然保留著符號,但你將其解釋為這些大型向量,而所有的努力都集中在這裏。所有的知識都體現在你使用的向量以及這些向量元素之間的交互作用上,而非符號規則。但這並不是說你可以完全擺脫符號。它的意思是將符號轉化為龐大的向量,但仍然停留在符號的表層結構上。
這就是這些模型的工作原理。現在在我看來,這也同樣是一個更合理的人類思維模型。
算力與計算:電腦不一定要像人腦一樣思考
Hellermark : 你是第一批意識到使用 GPU 的人之一( 2009 年 ), 黃仁勛 因此非常欣賞你。帶我們回顧一下你的靈感來源。
Hinton : 實際上,大約在 2006 年,我有一個叫 Rick Zelinsky 的 前研究生 ,他是一位非常優秀的電腦視覺專家。在一次會議上,他告訴我:「 你知道嗎,你應該考慮使用圖形處理卡,因為它們在矩陣乘法方面非常出色。你現在的研究基本上都是矩陣乘法。 」
我對此思考了一會兒,試著購買了遊戲用的 GPU,發現它們讓處理速度提升了 30 倍。接著我們買了一整套 NVIDIA Tesla GPU ,並在上面進行了語音處理,效果非常好。
NVIDIA Tesla GPU
隨後到了 2009 年,我在 NIPS 上發表演講,對 1,000 名機器學習研究人員說:「 你們都應該去買 NVIDIA 的 GPU。它們代表了未來。你們做機器學習需要它們。 」
實際上,我隨後給 NVIDIA 發了一封信件,說:「 我告訴了 1,000 名機器學習研究人員購買你們的顯卡。你們能因此免費送我一塊嗎? " 他們說不行 —— 我開玩笑的,其實他們只是沒有回復。後來,黃仁勛知道了這件事,他免費送了我一塊顯卡。
Hellermark : 那真是太好了,我覺得最有意思的地方在於 GPU 技術是伴隨著 AI 領域一同發展的。你對於 計算技術下一步應該如何演進 有哪些看法?
Hinton : 我在谷歌的最後幾年裏一直思考如何實作 模擬計算( analog computation ) 。這樣我們就不用消耗百萬瓦級的電力,而是可以像大腦一樣只用 30 瓦,從而在模擬硬體上執行這些大語言模型。盡管我沒有成功實作這一目標,但這一過程讓我加深了對數位計算價值的認識。
模擬計算意味著每塊硬體都有其獨特性,這要求學習過程需適應硬體的具體特性,類似於人腦中每個個體的大腦差異性。由於人腦硬體的不同,使得權重無法直接從一個人轉移到另一個人,資訊傳遞效率低下,這被稱為 知識蒸餾( distillation ) 。
因其權重的可復制性和共享性,數位系統實際上是「永生」的。一旦某個系統學習到的權重被確定,它可以被保存並在任意相容的數位系統上重現,無需考慮硬體的具體差異,從而實作高效的創用CC。數位系統間可以透過微小的學習更新,然後共享這些更新後的權重,實作集體知識的即時同步,這是人類目前無法做到的。因此,我認為 數位系統在創用CC方面比人類更加優越 。
Hellermark : 神經科學中其實早已有很多類似的想法,並套用在了現代人工智慧系統中。你覺得未來還有哪些神經科學原理尚待融入這些系統中?
Hinton : 我們仍需在時間尺度上與神經科學同步的一個重要領域是 變化的時間尺度 。在現有的神經網路模型中,通常只有兩個時間尺度:一個是 活動( 如神經元啟用狀態 ) 的快速變化,另一個是 權重( 長期學習參數 ) 的緩慢調整。然而,人腦中存在多個時間尺度的權重變化,這允許了臨時記憶的形成。
例如,我突然沒由頭地喊一句「 黃瓜! 」,五分鐘後你戴上耳機,並在周圍釋放很多噪音,這時候聽到的詞很微弱,卻更容易辨識出「黃瓜」這個詞 —— 因為我五分鐘前說過。那麽,這種知識在大腦中是如何儲存的呢?顯然是體現在 突觸的暫時性變化 中,而不是神經元在對你說:「 黃瓜,黃瓜,黃瓜。 」 這體現在權重的暫時性變化上。透過權重的暫時性變化,你可以做很多事情,我稱之為 快速權重 —— 但在當前的神經模型中,我們並不這麽做。
部份原因是,這些 模型依賴於並列處理大量數據以實作高效的矩陣運算,而這與快速權重所需的依據輸入數據動態調整權重的機制相沖突 。然而,快速權重對於實作更接近人腦的臨時記憶功能至關重要。我曾非常期待像 Graphcore 這樣的技術如果采用順序處理並僅進行線上學習,就有可能利用快速權重。但目前這一設想尚未實作。我預測隨著技術進步,特別是當開始 使用電導作為權重表示 時,這一問題有望得到解決。
思維方式:「 我親眼見到機器人表現出了情感 」
Hellermark : 了解這些模型的工作原理以及大腦的工作方式,對你的思考方式有何影響?
Hinton : 我認為最大的影響在於對一個抽象概念的認知轉變:過去,許多人,包括統計學家、語言學家及多數 AI 研究者,對透過一個大型隨機神經網路並輔以大量訓練數據來學習執行復雜任務的想法持懷疑態度,他們認為這僅是「 空想 」。沒有內在知識和嚴格架構限制,不可能學會復雜事物。
然而,大型神經網路模型的成功驗證了這一觀點的錯誤性: 透過隨機梯度下降不斷調整權重,確實能夠學習並掌握復雜知識 。這一發現對於理解大腦的工作機制具有重要意義,表明大腦不必具備所有先天結構 —— 盡管大腦確有其固有的結構,但對於易於學習的事物,它並不需要特定的先天結構。
Hellermark : 究竟如何能讓 AI 模型更有效地模擬人類的意識?假如說有一個伴隨人一生、具有自我反思能力的 AI 助手,那在得知主人去世的訊息時,它是否會有所感受?
Hinton : AI 助手如果想「 得知 」 主人去世 ,就需要另一個人 告訴 它,或是讓它自己去 感知 —— 因為主人已經死了,無法給 AI 傳遞資訊。
Hellermark : 是的,你認為 AI 助手在主人去世時能 感知 到什麽?
Hinton : 我認為 AI 也能有情感 。就像我們有內心劇場模型來解釋 感知 一樣,我們也有類似的模型來解釋 情感 ,這些是我能體驗到而別人無法體驗的。
假如我在內心想:「我真想給 蓋瑞( Gary Marcus,科學家,深度學習的主要反對者 ) 的鼻子來一拳……」 —— 事實上我真的經常這麽想 —— 然後我試著將這個想法從內心劇場的概念中抽象出來,此時若不是因為我的前額葉的抑制作用,我會真的采取行動( 揍蓋瑞一拳 )。
當我們談論 情感 時,實際上是在談論「 如果沒有外部約束時我們可能會采取的行動 」。而這正是情感的本質。它們是我們如果沒有約束就會采取的行動。因此,我認為你可以用同樣的方式來解釋情感,並且沒有理由認為這些事物( AI )不能擁有情感。
事實上, 在 1973 年,我親眼見到一個機器人表現出了情感 。愛丁堡大學有一個這樣的機器人,它有兩只夾子,如果你將玩具車的零件單獨放在一塊綠色毛氈上,它就能組裝起來。但如果你將零件堆在一起,它的視覺不足以弄清楚發生了什麽。於是它會將夾子合攏,發出「啪」的一聲,把零件擊散,從而「 組裝 」起來。
愛丁堡大學 的機器人
「弗萊迪」(Freddy)
如果你在一個人身上看到這一幕,你會說這是因為那個人不理解情況而感到沮喪,因為它們在面對約束和問題解決時,會采取相應的行動策略。
Hellermark : 這很深奧。
回顧人生選擇:「我 其實真正想研究的是大腦 」
Hellermark : 你曾經表達過一個觀點,即人類和大語言模型都可以被視為一種 「類比的機器」( analogy machines ) 。那你一生中發現過的最強大的類比是什麽?
Hinton : 我的一生中?我覺得對我影響深遠的一個類比是 將宗教信仰與對符號處理的信仰相比較 。 我來自一個無神論家庭,所以當我在學校接觸到宗教信仰時,覺得它毫無意義且不合理。後來,當我最初遇到符號處理作為解釋人類思維方式的概念時,也有同樣的感受,認為符號論也是無稽之談。
但隨著時間的推移,我的看法也有所改變。我認為人類確實進行著符號處理,這並不像傳統觀念中那麽簡單,即 符號僅僅透過彼此之間的同一性或差異性來進行匹配 。現代的理解是, 我們透過給符號賦予大型嵌入向量,並利用這些向量的成分間互動來進行思考,這種方式充分利用了上下文資訊 。
谷歌有一位非常優秀的研究員名叫 費南多·佩雷拉( Fernando Pereira ) ,他曾說過," 我們確實擁有符號推理,而我們擁有的唯一符號就是自然語言。自然語言是一種符號語言,我們用它進行推理。 " 現在我對此深信不疑。
Fernando Pereira
Hellermark : 你完成了電腦科學史上一些最有意義的研究。能教我們如何選擇正確的問題來研究嗎?
Hinton : 首先,讓我糾正一下你的說法 —— 我是 和我的學生們 做了很多非常有意義的事情,這主要得益於與學生的良好合作以及我挑選優秀學生的能力。
這得追溯到 70 年代、80 年代、90 年代以及 2000 年代初期,當時從事神經網路研究的人非常少。因此,從事神經網路研究的少數人能夠挑選到最優秀的學生。這可以說是一種幸運。至於我選擇問題的方式……當科學家談論他們的工作方式時,他們會有關於自己工作方式的理論,這些理論可能與實際情況並不相符。
但我的理論是, 我會尋找那些大家都認同但感覺不對勁的事情 。就是有一種直覺,覺得這裏面有些問題。然後,我會針對這一點進行研究,看看是否能詳細說明為什麽我認為它是錯誤的。或許是用一個小型的電腦程式做一個小演示,展示某項事物並不像人們預期的那樣工作。
讓我舉一個例子。大多數人認為, 如果你向神經網路添加雜訊,它的效能會變差 。例如,每次你透過一個訓練樣本時,如果讓一半的神經元保持沈默,它的效能會變差。實際上,它只會因此更好地 泛化 。而在電腦上,這可以用一個簡單的例子中演示,這就是電腦模擬的好處。然後,我會深入思考「 為什麽會這樣? 」,這就是我的工作方法: 找到聽起來可疑的東西,對其進行研究,看看是否能給出簡單演示來證明其錯誤 。
Hellermark : 假如今天有一群學生來找你,問你人工智慧領域接下來最該解決的問題是什麽?你會建議他們接下來應該著手解決和研究什麽問題?
Hinton : 這個問題的答案和我過去 30 年左右一直持有的問題相同,那就是, 大腦是否進行反向傳播 ?
我相信大腦在學習過程中確實利用了 梯度資訊 來最佳化其內部連線(權重),因為缺乏梯度資訊會使學習效率大大降低。然而,我對於 大腦如何實際獲得這些梯度 、 是否透過某種近似反向傳播機制或是完全不同的方法來實作這一點 ,仍持開放態度。我認為這是個重大且尚未解決的問題。如果我未來繼續進行研究,這將是我的研究焦點。
Hellermark : 回顧你的職業生涯,你在很多事情上都判斷正確,但是你是否曾經在哪些方面判斷失誤?是否後悔在這些錯誤判斷上投入了過多時間?
Hinton : 這其實是兩個問題:我曾經在哪些方面判斷失誤?我是否希望自己在那上面花費的時間少一些?
我認為我在波茲曼機上判斷失誤了,但我很高興我在這上面花了很長時間。與反向傳播相比, 波茲曼機提供了一種更為精妙和吸引人的梯度計算方法,而反向傳播相對而言較為常規且直接遵循鏈式法則 。
所以,我原本希望並相信波茲曼機的工作原理能更貼近大腦的實際運作機制 —— 但事實並非如此。總之,我對探索 波茲曼機的過程 並不感到遺憾,因為其本身富有啟發性,並且深化了我對機器學習和神經科學的理解。
Hellermark : 你是否也花了很多時間去想象這些系統發展之後會發生什麽?比方說透過 民主化教育 ,我們可以使知識更加易於獲取;或者是透過人工智慧,解決 醫學 中的一些難題;或者對你來說,這些系統的發展主要是能有助於 理解人腦 ?
Hinton : 我總覺得科學家應該致力於對社會有益的研究,但 實際上,驅動高品質科研工作的往往是純粹的好奇心,即對某個問題深入理解的渴望 。
雖然近期我開始意識到人工智慧技術既可帶來巨大益處,也可能引發諸多負面影響,但這些並不是我的初衷。我只想了解一個問題:「 大腦究竟是如何學會做事的? 」 盡管從某種程度上說我未能完全達成初衷,但這一過程的 副產品 —— 人工智慧和機器學習領域的工程技術成果 —— 卻是積極且具有價值的。
Hellermark : 是的,這對世界來說是一次 有益的失敗 。
未來:反向傳播可能是正確的道路
Hellermark : 你認為未來最有前景的套用是什麽?
Hinton : 我認為 醫療保健 顯然是一個重要的領域。在醫療保健方面,社會幾乎可以無限吸收更多的醫療服務。一位老人通常可能需要五位醫生全天候服務。因此,當人工智慧在某些方面超越人類時,我們希望它在那些我們可以大量套用這些技術的領域變得更好。
此外,我們確實需要更多的醫生。如果每個人都有三位專屬醫生那就太好了。我們未來將會達到那個階段,所以醫療保健是一個好的方向。
還有一個套用,就是 在新工程領域開發新材料 ,例如太陽能電池板或超導材料,或僅僅是為了理解身體是如何運作的,那將會產生巨大的影響。這些都是好事。
我所擔心的是不良分子利用它們做壞事 —— 比如使用 AI 來制造殺人機器人、操縱公眾輿論、進行大規模監視……這些都是非常令人擔憂的事情。
Hellermark : 你是否擔心過減緩 AI 發展會同樣導致 AI 帶來的有益影響變少?
Hinton : 我肯定擔心過。 但我認為 AI 領域不太可能減緩發展 ,部份原因在於,它是國際性的。如果一個國家減緩了發展,其他國家並不會跟著減緩。很明顯, 中美之間存在一場 AI 競賽,而雙方都不會放慢腳步 。
曾經有一份請願書寫道我們應該放慢腳步六個月。我之所以沒有簽字,是因為我認為那件事永遠不會發生。通常,即使知道無法得到,為了表明立場而提出要求也是有益的……但 我不認為 我們 會放慢腳步 。
Hellermark : 當你審視今天正在進行的各類研究時,你是否認為我們正將所有雞蛋放在一個籃子裏?是否應該在 AI 領域內更多元化我們的想法?還是你認為這是最有前景的方向,因此我們是否應該全力以赴投入其中?
Hinton : 哪怕僅是為了預測下一個詞,在大模型上使用多模態數據訓練也是極具前景的,我們應該在這上面全力以赴 。顯然,現在有大量的人正在這樣做。也有很多人在做看似瘋狂的事情,這都很好。 因為多模態的效果非常好 ,所以大多數人追隨這條道路是合適的 。
Hellermark : 特定的學習演算法真的很重要嗎?還是說達到期望結果主要是規模( 如數據量、計算能力等 )的問題?人工智慧達到人類水平智慧的方式是有數百萬種,還是寥寥幾種?
Hinton : 關於學習演算法的重要性與多樣性,我自己也不確定最終的答案,但我覺得 反向傳播( backpropagation ) 作為一種學習演算法,在某種意義上是「正確」的選擇,因為它透過梯度來最佳化參數,以提升效能,且已被證實極其成功。
雖然反向傳播非常有效,但目前可能也還存在其他演算法,這些演算法或是獲取相同梯度的變體,或是針對其他目標函式的最佳化,同樣能發揮作用。這是一個目前非常有趣且值得探討的問題。
我推測,大腦可能也是采取類似機制(雖然可能更簡化),因為這種方式更為高效。總之,從某個角度來說,反向傳播是合理的做法,且實踐表明其效果極佳。
Hellermark : 回顧數十年的研究生涯,你最引以為傲的是什麽?是你的學生嗎?還是研究成果?
Hinton : 波茲曼機的學習演算法 。波茲曼機的學習演算法非常優雅。盡管在實際套用中可能無望,但這是我與泰瑞合作開發時最享受的部份,也是我最引以為傲的 —— 即使它是錯誤的。
Hellermark : 現在您大部份時間都在思考哪些問題?
Hinton : 我思考的是, 「 我應該在 Netflix( 網飛,知名串流媒體視訊網站 )上看什麽?」
采訪原視訊連結: https://www.youtube.com/watch?v=n4IQOBka8bc
開發者正在迎接新一輪的技術浪潮變革。由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的 2024 年度「全球軟體研發技術大會」秉承幹貨實料(案例)的內容原則,將於 7 月 4 日-5 日在北京正式舉辦。大會共設定了 12 個大會主題:大模型智慧套用開發、軟體開發智慧化、AI 與 ML 智慧運維、雲原生架構……詳情👉: http://sdcon.com.cn/