黃仁勛對話Transformer七子：太多算力浪費，我們必須解決自適應計算問題

2024-03-21資訊

整理丨王軼群

責編丨唐小引

出品丨AI 科技大本營（ID：rgznai100）

黃仁勛認為，在過去的六十年中，電腦技術似乎並沒有經歷根本性的變革。而電腦的邊際成本持續下降，為社會帶來了巨大的動力。

而目前我們正處在一個巨大的變革點，正在見證生成式人工智慧這種全新的軟體和「AI工廠」的誕生。「人工智慧透過數據理解其背後含義的能力，這是一個巨大的變革。」

「不要錯過接下來的十年，因為在這十年裏，我們將創造出巨大的生產力。時間的鐘擺已經啟動，我們的研究人員已經開始行動。」老黃在座談開場時說道。

老黃在GTC2024的第三天邀請了Tansformer的創造者們進行座談，來一起討論未來生成式AI會將我們帶向何方。

Transformer八子

老黃邀請到了機器語言模型Transformer的發明者、創造者們，即那篇名為【註意力就是一切（Attention is All you need）】的Transformer論文的作者們。

Ashish Vaswani ：2016年加入谷歌大腦團隊；2022年4月，與Niki Parmar共同創辦了Adept AI，12月離開，並共同創立了另一家人工智慧初創公司Essential AI。

Noam Shazeer ：曾於2000年至2009年間和2012年至2021年期間就職於谷歌。2021年，Shazeer離開谷歌並與前谷歌工程師Daniel De Freitas共同創立Character.AI。

Illia Polosukhin ：2014年加入谷歌，是八人團隊中最早離開的人之一，於2017年同他人共同創立了區塊鏈公司NEAR Protocol。

Lukasz Kaiser ：曾任法國國家科學研究中心研究員。2013年加入谷歌。2021年離開谷歌，成為OpenAI的研究員。

Llion Jones ：曾在Delcam、YouTube工作。2012年加入谷歌，擔任軟體工程師。後來離開谷歌，創辦人工智慧初創企業sakana.ai。

Aidan Gomez ：畢業於加拿大多倫多大學，Transformer論文發表時，他僅是谷歌大腦團隊的實習生。是八人團隊中第二個離開谷歌的人。2019年，與他人共同創立了Cohere。

Niki Parmar ：在谷歌大腦工作了4年後，與Ashish Vaswani共同創立了Adept AI和Essential AI。（Niki Parmar因為家庭急事無法出席）

Jakob Uszkoreit ：2008年至2021年在谷歌工作。2021年離開谷歌，與他人共同創立Inceptive，該公司主營業務為人工智慧生命科學，致力於使用神經網路和高通量實驗來設計下一代RNA分子。

對談精簡版

遞迴神經網路沒辦法滿足需要

黃仁勛： 是什麽啟發了你們去做Transformer？

Illia Polosu khin： 當時雖有遞迴神經網路（RNN）和一些初步的註意力機制（Arnens）引起了關註，但逐個單詞的閱讀效率不高。遞迴神經網路（RNN）並不能滿足真正讀取搜尋結果的需求。

Jakob Uszkoreit： 我們生成訓練數據的速度遠遠超過了我們訓練最先進架構的能力。實際上我們使用的是更簡單的架構，比如以n-gram作為輸入特征的前饋網路，這些架構通常都能超越那些更復雜、更先進的模型。那時候的強大RNN，特別是長短期記憶網路（LSTM）。

Noam Shazeer： 我們在2015年左右就已經開始註意到這些Scaling law，你可以看到隨著模型規模的增大，它的智慧程度也隨之提高。而挫敗感在於，RNN處理起來實在是太麻煩了。然後我偶然聽到這些家夥在討論， 嘿，讓我們用摺積或者註意力機制來取代它 。我心想，太好了，我們就這麽幹。 我喜歡把Tansformer比作是從蒸汽機到內燃機的飛躍。我們本可以用蒸汽機完成工業革命，但那將會非常痛苦，而內燃機讓一切都變得更好。

Ashish Vaswani： 我在研究生時期就開始體會到一些苦澀的教訓，尤其是在我從事機器轉譯工作的時候。我意識到，嘿，我不會去學習那些復雜的語言規則。我認為梯度下降（Gradient Descent）——我們訓練這些模型的方法——是一個比我更出色的老師。所以我不會去學習這些規則，我只會讓梯度下降（Gradient Descent）為我完成所有工作，這就是我的第二個教訓。

我從這些苦澀的教訓中學到的是， 那些可以擴充套件的通用架構最終將在長期中勝出。Transformer特別是其自註意力機制，具有非常廣泛的適用性 ，它也讓梯度下降變得更好。

Noam Shazeer： 這個模式一直在重復出現。所以每一次當你添加一堆規則時，梯度下降終將比你更擅長學習這些規則。就是這樣。就像我們一直在做的深度學習一樣，我們正在構建一個形狀像GPU的AI模型。而現在，我們正在構建一個形狀像超級電腦的AI模型。

從機器轉譯到多模態的實作

黃仁勛： Transformer當時要解決什麽問題？

Lukasz Kaiser： 機器轉譯 。只需提供一種語言和另一種語言，模型就能自行學會轉譯，就像自然而然地湧現出來的，且效果令人滿意。

黃仁勛： 「Attention Is All You Need」這個靈感源自哪裏？

Llion Jones： 「Attention」的直覺就是你所需要的。所以我想出了這個論文標題，基本上發生的事情就是在我們尋找標題的時候。我們只是在做消融，開始把模型的一些碎片扔掉，只是為了看看它會不會變得更糟。令我們驚訝的是，它開始變得更好。包括像這樣扔掉所有的摺積效果要好得多。那時我腦海中的想法是，我就是和我的腦子在一起工作。這就是標題的來源。

Ashish Vaswani： 我們實際上是從一個最基本的框架開始的，然後我們添加了東西，我們添加了摺積，我猜後來我們又把它們去掉了。還有多頭註意力等其他很多非常重要的東西。

黃仁勛： 為什麽叫Transformer？

Jakob Uszkoreit： 只是隨便起了一個，我們覺得它很有創意，使用了這樣一種邏輯改變了我們的數據生產模式。 所有的機器學習都是Transformer，也就是「顛覆者」的意思。

Noam Shazeer： 「Transformer」描述了模型的原理，它實際上轉換了整個訊號。按照這個邏輯，幾乎所有的機器學習都會被轉換。

Llion Jones： Transformer之所以成為這樣一個人們耳熟能詳的名字，不僅僅是因為轉譯的內容，而且是因為我們 希望以一種更概括的方式來描述這種變革 。

我們實際上是在嘗試創造一些非常非常通用的東西，它真的可以將任何東西變成其他任何東西。當我們構建張量到張量庫時，我們真正關註的是擴大自回歸訓練的規模。這不僅僅是語言，還有影像、音訊的元件。

Lukasz說他正在做的是轉譯是低估了自己。我們現在開始看到這些模式結合在一起都加入了模型。我們應該對一切進行訓練。這個想法確實推動了擴充套件工作，最終成功了。你可以用它來研究生物學或生物軟體，類似於電腦軟體以程式的形式開始，然後將其編譯成可以在GPU上執行的東西。

一個生物軟體的生命始於某些行為的規範。比如說，你想打印一個蛋白質，就像細胞中的特定蛋白質一樣。然後你學會了如何使用深度學習將其轉化為RNA分子，但實際上一旦進入你的細胞，表現出這些行為。所以這個想法真的不僅僅是轉譯成英語。

黃仁勛： 你們是否建立了一個大型的實驗室來生產所有這些？

Aidan Gomez： 我們嘗試在給定的產品中進行建模，比如說 蛋白質表達和 mRNA疫苗 之類的東西。在帕洛艾爾托，我們有一大堆機器人和穿著實驗室外套的人，既有學習研究人員，也有以前是生物學家的人。

現在，我們認為自己是新事物的先驅，致力於實際建立這些數據並驗證設計這些分子的模型。但最初的想法就是轉譯。

架構性的修復、增強和突破

即便取得了成就，Transformer團隊沒有故步自封，而在準備迎接更大的變革與提升。

黃仁勛： 所以你說一開始就有一些關於普遍 Transformer 的早期想法。但你們所有人在這條路上都看到了一些重大的、你們認為是基於基本 Transformer 設計的，真正偉大的額外貢獻，主要是架構性的修復、增強和突破。

Aidan Gomez： 我覺得在推理方面，已經有很多工作來加速這些模型，使它們更高效。但我仍然覺得有點不安，因為它與我們以前的形式非常相似。我認為世界需要比 Transformer 更好的東西。我想我們在座的所有人都希望它能被某種東西所取代，將我們帶到一個新的效能高原。

你認為接下來會發生什麽？是令人興奮的一步嗎？因為我覺得現在與 6、7 年前的情況相似。

Llion Jones： 如果只是稍微改進，還不足以讓整個人工智慧行業轉向新事物。 我認為重要的是要明顯、顯而易見地變得更好。所以盡管原始模型可能不是我們現在擁有的最強大的東西，但我們仍然固守在原來的模型上。

黃仁勛： 每個人的工具集都是不同的，你們想要改進的內容是什麽呢？改進生成能力，還是要更快？

Jakob Uszkoreit 等： 現在使用的計算量太大了，我覺得浪費了很多計算資源。 但實際上，這是 關於分配，而不是關於總量 。

Illia Polosukhin： 所以現在一個真實的例子就是 2 加 2。如果你輸入這個模型，它會使用 1 萬億個參數。我認為 自適應計算是接下來必須解決的問題之一 ，這樣我們就知道在特定問題上要花費多少計算資源。

Ashish Vaswani： 我們最初的目標是模擬 token 的演變，實作線性生成。現在這個過程也適用於影像，擴散模型會叠代地進行改進和完善。根本的問題是，哪些知識應該存在於模型內部，哪些應該存在於模型外部？例如，推理應該在外部使用符號系統進行，這是一個效率的問題。

Noam Shazeer： 每次操作的計算成本大約是10到-18美元。擁有 5000 億參數的模型每個 token 仍然只相當於一美元的百萬分之一。這是非常便宜的。我們可以利用這個來提升模型的智慧。我們有一些應用程式的價值是計算巨型神經網路的效率的百萬倍以上。比如治愈癌癥之類的，當然很重要，但即使只是與任何人交談，與你的醫生、律師、程式設計師交談，你也需要支付 1 美元一個token，或者更多。我們有一百萬個 token來使用，我們可以用它來讓模型變得更聰明。 有時候，恰到好處的詞語就能改變世界。

Ashish Vaswani： 獲取正確的反饋對於提升模型智慧至關重要。我們需要將任務分解為人類可以幹預的步驟，並構建能夠透過觀察我們學習的模型。

推動科技造福世界

聚是一團火，散作滿天星。Transformer論文的八位作者目前七位下場創業，還有一位在OpenAI。這裏各公司創始人們的初衷基本都是科技改變世界。

黃仁勛： 為什麽創辦你的公司？

Ashish Vaswani： 從2021年開始，我發現模型最大的問題在於，你不能僅僅讓模型變得更聰明，你還需要找到合適的人才來解讀這些模型。我們的目標是構建模型並解決新的任務。我們的工作是理解任務的目標和內容。希望讓這個世界與模型相互交融，使模型變得更加龐大和卓越。

Noam Shazeer： 想象一下，如果我是一個病人，聽到你這樣說，我會覺得有數百億人他們需要完成不同的任務。這就是深度學習的意義所在，我們透過對比來提升技術。我們的終極目標是幫助全世界的人們。你們必須進行測試，我們現在需要開發更快的解決方案，讓數百人能夠套用這些應用程式。

Jakob Uszkoreit： 我更希望能夠改變現有的醫療架構，並且希望科學技術的發展能夠對人類的生存和發展產生積極影響。例如，蛋白質的結構解構已經受到了一定的影響，但目前我們缺乏數據。我們必須基於數據做出努力，這不僅是職責，也是作為父親的責任。

黃仁勛： 我一直認為它是藥物設計。但我喜歡你把它看作蛋白質編程。

Llion Jones： 我們共同創立的公司叫做Sakana AI，意思是「魚」。我們之所以用日本的「魚」來命名公司，是因為我們像魚群一樣，自然啟發了我們尋找智慧的靈感。如果我們能將許多檢驗的元素結合起來，就會創造出復雜而美妙的事物，內部的核心哲學是「學習永遠勝利」。我們讓這些模型變得更加可行，使用這些大型模型和變革性的模式，改變人們對世界和宇宙的認知方式。

Aidan Gomez： 我建立 Coherer 的初衷與Noam Shazeer相似。我認為電腦正在進入一種新的模式，它正在改變現有的產品和我們的工作方式。我們的角色是什麽？我實際上是在彌合差距、彌合鴻溝。適應並融合產品，直面使用者，推進技術，讓技術變得更加經濟、更加普及。

Lukasz Kaiser： 是的，我最終決定再次加入 OpenAI。卡普納被問到為什麽會回來，他說那裏有錢，有時間。我加入的地方是 AI 最好的地方。公司裏非常有趣。我們知道你可以利用大量數據和計算資源建立出優秀的東西，我仍然希望能夠招募更多的人，以及更多的計算資源。但歸根結底，我的角色還是一個數據處理者。我沒有找到適合我的創業方向……

黃仁勛： 我知道，但你 繼續改變著世界 ，繼續吧。

Illia Polosukhin ： 我與Ashish的觀點相似，我堅信我們向著實作幾乎所有世界中的軟體化進步，而機器學習就是軟體的一部份。因此，最直接的方法是教會機器編碼，這樣你就能夠生成軟體並改變所有人的存取方式。在NEAR，我們致力於整合人類智慧，獲取相關數據。這種模式是基礎性的進展，這種大模型在全球範圍內被廣泛使用，它在航天等領域有眾多套用，它關乎各領域的交流與互動。

保持樂觀，繼續改進

黃仁勛： 你們彼此之間有沒有想要探討的問題？

Illia Polosukhin： Transformer 模型中的自註意力機制可以視為一種「遞迴步驟」，在每個步驟中，模型都會根據輸入中的不同部份來更新資訊。這種遞迴性質使得模型能夠在每個步驟中對輸入進行增強和推理。然而，有趣的是，目前很少有人探索透過連線不同數量的遞迴步驟來訓練模型，這可能是一個值得研究的方向。透過探索遞迴性質，我們可能能夠擴充套件模型的推理能力，並使其能夠處理更復雜的任務。

確實，有時候並不需要固定數量的步驟，而是需要根據輸入的復雜程度來動態調整遞迴步驟的數量。這種動態調整可能會使模型更加靈活，能夠更好地處理不同型別的輸入和任務。另外，關於如何擺脫 tokens，這也是一個非常值得探索的問題。

Lukasz Kaiser： 我個人認為，對於如何使用梯度下降來完全學習迴圈神經網路（RNN）的訓練，我們尚未完全掌握。或許這很簡單。我是說，長短期記憶網路（LSTM）有一些誤差操作符，這使得早期的情況能夠工作。

那麽，SSMs（Structured Self-Attentive Models）工作得更好，對嗎？這是因為它們的結構可能需要用不同的方式訓練，而不是用梯度下降。也許我們需要像人類一樣在一些服務中進行遞迴訓練。

我個人的信仰是，如何復現這樣的大模型，這是一個非常復雜的過程。系統會不斷進步，但從本質上講，你需要設計一種方法。 人類是善於復現的生物，在人類歷史中，我們不斷復現成功的場景。

Transformer就跟蒸汽、內燃機一樣，一開始只是為了解決簡單的個體效率提速問題，之後卻都帶動了整個產業的變革。

到場的交流者在此之前，實際上從未同時出現在同一個房間裏。黃仁勛表示很高興能與各位交流，交流見產生難以言喻的魔法。

這種魔法，無疑會推動開發者們對大模型的認知更進一步。

參考連結：

https://venturebeat.com/ai/attention-is-all-you-need-creators-look-beyond-transformers-at-nvidia-gtc-the-world-needs-something-better/

4 月 25 ~ 26 日，由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的「 全球機器學習技術大會 」將在上海環球港凱悅酒店舉行，特邀近 50 位技術領袖和行業套用專家，與 1000+ 來自電商、金融、汽車、智慧制造、通訊、工業互聯網、醫療、教育等眾多行業的精英參會聽眾，共同探討人工智慧領域的前沿發展和行業最佳實踐。 歡迎所有開發者朋友存取官網 http://ml-summit.org、點選「閱讀原文」或掃碼 進一步了解詳情。