Google 創始人謝爾蓋·布林回歸，直面 Gemini、Google、AGI 若幹問題

2024-03-06資訊

整理丨王軼群

出品丨AI 科技大本營（ID：rgznai100）

隱退江湖四年的谷歌聯合創始人謝爾蓋·布林（Sergey Brin，以下簡稱布林）因為谷歌在大模型之戰的大失利而親赴前線，深入谷歌的大模型 Gemini 的研發工作，繼我們看到布林親自給 Gemini 寫程式碼、經常加班到淩晨的傳聞之後，布林本人在 Gemini 黑客松現身，對一系列問題進行了回應。

在近40分鐘的演講交流中，布林與開發者們共同聊了聊Gemini開發內幕、AGI，以及AI對社會變革的看法和開發者們所關註的 AI 之於谷歌的影響。有谷歌前研究科學家曬出與布林的現場合影，並表示非常受啟發。布林此舉引起了全閘道器註和科技圈的熱議，網友紛紛呼籲他回歸重新執掌谷歌。與此同時，谷歌的現任CEO桑達爾・皮查伊（Sundar Pichai）則面臨著下台的呼聲。

本文對布林與開發者現場的交流進行了梳理（部份內容有刪減），讓我們一起看看這場啟發與爭議並存的AI極客們與谷歌傳奇創始人的思維碰撞。

直面 Gemini 的爭議問題

在去年釋出的的Gemini技術報告中，布林的名字就出現在核心貢獻者的名單內。作為核心貢獻者之一，他在揭秘Gemini的開發時，對現場的開發者們展示出了極大的坦誠，他率先表示：「Fire away（開火吧，盡管說）！」，由此展開了一系列關鍵問題的討論。

在去年的Google I/O大會上，Pichai為我們帶來了Gemini，然而一如Bard釋出後的窘況，Gemini釋出之後也遇到了諸多翻車問題。而其最新的Gemini 1.5 Pro釋出伊始，其風頭便被OpenAI的Sora完全蓋過。布林表示，Gemini的釋出有著些許意料之外，它在開發團隊內部被稱為金魚（Goldfish）：

這是個具有諷刺意味的名字，因為金魚記憶很短。但當我們在訓練這個模型的時候，我們並沒想到它會出乎意料地強大，或者擁有它所具備的所有功能。實際上，這只是我們規模擴充套件實驗的一部份。但當我們看到它能做什麽時，我們就在想：嘿，不要再等待，希望全世界都能嘗試起來。我很感激在座的各位都在這裏試一試。

此前，Gemini繪畫在種族問題上翻車。面對現場開發者對Gemini影像生成事件的提問，布林誠懇認錯：

我們在影像生成上確實出了問題。我認為這主要是由於沒有進行徹底的測試。我想這些圖片促使很多人深入測試了基礎文本模型。文本模型有兩個獨立的效應。

一方面，坦白講，如果你深入測試任何文本模型，無論是我們的、ChatGPT，還是你手頭的，它可能會說出一些相當奇怪、看似極左的言論。任何模型，只要你嘗試得足夠深入，都可能被誘導進入那種情況。但也要公正地說，那個模型中有一些我們還無法完全理解的部份，比如為什麽在很多情況下，它的輸出結果會偏向「左」。這並不是我們的初衷。但如果你從上周開始嘗試的話，我們已經覆蓋的測試案例至少應該有 80% 的提升。所以，我希望你們都去試一試。這應該會產生很大的影響。

你們正在試用的這個版本Gemini 1.5 Pro，並沒有在公眾端的套用中，我們曾經的 Bard，並不應該有太大的影響，除了一個普遍的情況：如果你對任何 AI 模型進行徹底的測試，總會出現一些奇特的邊緣情況。但即使這個版本並未進行全面的測試，我們並不期待它會有強烈的特定傾向。我想我們可以嘗試一下。盡管今天我們更期待的是試驗長上下文和一些技術特性。

深入模型技術與安全

在現場，布林多次提及了他對AI大模型發展的興奮與期待。他的再次公開露面，將他對AI的熱情盡現，他表示自己很熱衷於研究AI、樂於使用AI工具，並持續精進AI大模型。

Q：隨著當前多模態大模型的發展，谷歌是否考慮視訊聊天GPT？

布林： 多模態模型上無論是輸入還是輸出，都非常令人興奮。 在視訊、音訊上，我們進行了早期實驗，這是一個令人興奮的領域。你們還記得那個小鴨子的視訊嗎？雖然視訊中已經充分聲明了它並不是即時的，它還是讓我們陷入了麻煩。我們確實做過一些工作，比如稽核圖片，逐幀分析，目前我覺得還沒有現成的即時展示。

Q：你是否親自為某些計畫編寫程式碼？

布林： 說實話，我並未真正編寫過程式碼。雖然這並不是你會覺得非常厲害的程式碼，但有時我還是會偵錯一下，努力理解一個模型的工作方式，或者在不同的區域分析一下效能。盡管這只是些小事情，但讓我感覺參與其中。 由於我現在的編程技能有些生疏，我會使用AI機器人來幫我編寫程式碼，其工作效果出奇得好。 所以，你應該會對此感到滿意。

Q：作為 Gemini 上開發套用的開發者，我們想知道你對哪類套用最感興趣？

布林： 我最感興趣的是哪種應用程式？我認為現階段只是獲取資訊。對於我們試圖編輯的版本，1.5 Pro，長上下文測試是我們真正在嘗試的東西。無論你是在轉儲大量程式碼還是視訊，我剛看到現場有人這樣做......我真的不明白模型是如何做到這一點的。

Q：你認為我們是否能夠真正理解這些模型是如何工作，或者它們仍然是黑匣子？

布林： 我認為可以學會去理解它。當你面對這些模型時，你可以測試出一千種不同的效能。一方面，它能做到是非常令人驚訝的。另一方面，如果你想了解某個特定的能力，你可以回溯，我們可以檢視在程式碼和視訊之間，每一層的註意力是如何轉移的。

就我個人而言，我不知道研究人員在做這種事情上走了多遠，但需要大量的時間和研究才能真正剖析為什麽一個模型能夠做到一些事。我認為我們可以理解它，也許已經有人正在理解它，但大部份的精力都在尋找模型的錯誤之處，而不是揭示它失敗的原因。

Q：在電腦科學中，一個概念叫反射性編程，也就是程式能夠檢視甚至修改自己的原始碼。在AGI文獻中，有遞迴自我改進這樣的概念。那麽，你對於極長的上下文視窗以及語言模型能夠修改自己的提示有什麽看法呢？這些又與自主性和通用人工智慧的建設有何關聯？

布林： 我認為讓這些真正的自我改善是非常令人興奮的。記得在讀研究生時，我寫了個遊戲，它就像你正在穿越一個迷宮，但你射擊的墻壁對應的是記憶體的位，並會翻轉這些位。遊戲的目標是盡快讓它崩潰，這雖然不能直接回答你的問題，但這是一個自我修改程式碼的例子，只不過它並沒有特別有用的目的。不過，我還是會讓人們進行遊戲，直到電腦崩潰。

我認為開環（open loop）控制可能會對某些非常有限的領域起作用，若沒有人為幹預引導，我相信它可以實作一定程度的持續改進。 但我認為我們暫時還無法在一些重要的領域實作這一點。首先，一百萬長度的上下文對於大型程式碼庫來說還遠遠不夠，對於啟動整個程式碼庫可能有難度，但你可以先進行檢索，然後進行修改編輯。我個人可能沒有進行足夠的實踐，但至少在目前，我還沒有看到復雜的程式碼會自我叠代並進行改進，不過這的確是一件令人振奮的事，借力人類的輔助，絕對有能力做到。比如， 我現在就會使用 Gemini 去嘗試處理一些 Gemini 的程式碼 ，但還沒有進行過非常開環的深度工作。

Q：訓練成本非常高，你對此怎麽看？

布林： 成本肯定很高，這是像我們這樣的公司必須應對的事情，但其長期效用是無可比擬的。 就像如果你用人類生產力的水平來衡量它，若一周內為某人節省了一個小時的工作時長，那麽這個小時就很有價值了。有很多人正在或者將要使用，這是對未來的一個很大的賭註。

Q：我們每天都要處理數以千計的客服聊天記錄，你說過 GPT-4 是唯一真正有價值的，現在看起來 Gemini 也是一種非常有效的方法。非常感謝你的付出。看起來它的成本更低，效果甚至更好，響應非常迅速。所以我想問的是，它會一直保持這個水平嗎，還是你們計劃在將來提高價格呢？

布林： 我們不會。實際上，我並沒有掌握定價的資訊。我預計我們不會提高價格，有兩個主要的原因。首先，我們在模型推理方面一直在進行最佳化，每個月都有新的想法和最佳化方法累積起來，比如有 10% 的改進，有 20% 的改進，這樣積累起來就可以產生顯著的效果。其次， 我認為我們的TPU在進行模型推理方面表現得非常好，雖然它們不如GPU，但對於某些特定的工作負載，TPU更適配 。同時，另一個重要的影響因素是我們能夠使生成的模型越來越小而且更有效，無論是架構的變化，訓練的變化，還是其他的一些因素，都使得模型即使在同樣的規模下也越來越強大，所以我不認為價格會上漲。

Q：是在裝置上進行模型訓練嗎？

布林： 是的，在裝置上執行的模型，我們已經將其部署到安卓版的 Chrome和 Pixel手機，我認為即使是Chrome現在也執行了一個相當不錯的模型。我們剛剛開源了Gemma，這是一個非常小的模型，它做到低延遲的，不依賴網路連線，而且小模型也可以呼叫雲端的大模型，所以 我認為在裝置上執行模型真的是一個很好的選項。

Q：你認為這一代的科技有哪些垂直行業會受到很大影響，創業公司應該考慮去挖掘一下這些行業？

布林： 哪些行業有這麽大的機會？我認為這很難預測。 人們會想到一些明顯的行業，比如客戶服務，冗長文件的分析，以及工作流程自動化，這些都是顯而易見的。但我認為也會有不明顯的領域，這些我無法預測，尤其是看到這些多模態模型，以及它們所擁有的令人驚訝的能力時。 這就是你們所有人在這裏的原因，正是你們這些富有創造力人，要來找出這些機會所在。

Q：你是如何展示 AI 在醫療保健和生物技術方面的套用的？

布林： AI 在醫療保健和生物技術方面有很多套用場景。在生物技術方面，比如研究酒精等物質，理解生命的基本機制，你可以看到 AI 在這方面的套用越來越廣泛，無論是研究分子的物理結構，還是閱讀和總結外部的科研文章。從患者的角度來看，雖然在這個領域我們還有很長的路要走，因為我們不能僅依賴 AI，AI 也會犯錯誤。但我認為未來 AI 可以提供更個人化的醫療服務，AI 能夠更深入地研究個體，包括他們的病史，掃描結果等，可能在醫生的輔助下。實際上，這可能只是更準確的診斷，更優質的建議等等。

Q：你們是否在致力於研究非Transformer架構，以更好地進行推理和規劃？

布林： 我正在關註非Transformer架構。我認為有很多種方式可以進行改進，但我相信大多數人還是認為這些改進仍然基於Transformer架構。我相信在你們公司內肯定有人對此有更深的理解。 盡管過去六七年間，Transformer取得了很大的進步，但這並不意味著未來不會出現新的顛覆性架構。 另外，可能只是一些逐步的改變，比如稀疏性等，這些仍然是Transformer的一部份，也可能帶來革命性的變化。所以，我沒有一個確定的答案。但是，對於推理類問題是否存在某種瓶頸呢？使用Transformer有瓶頸嗎？是的。有許多理論研究揭示了 Transformer的局限性。我不知道這些理論局限性如何套用到現代的 Transformer上，因為現代的Transformer通常不滿足這些理論工作的假設，所以可能並不適用，但我也可能會嘗試其它架構，這也是很酷的事情。」

Q：我們能在多大程度上樂觀地引入文本生成模型和其產生幻覺的能力，以及你如何看待傳播中潛在的倫理問題?

布林： 這確實是當前面臨的一個重大問題。隨著時間的推移，我們減少了人工智慧的誤判。 我非常期待誤判率能夠接近零的突破 。但是，我們不能僅依賴突破。我們將繼續做各種能做的事，將錯誤率持續降低。顯然，你不希望你的 AI 機器人編造事實，但他們也可能被誤導。這涉及到許多復雜的政治問題，關於不同的人如何看待真假資訊。這引發了一場廣泛的社會討論。另一個可能需要考慮的問題是， AI 是否可能故意代表他人傳播假資訊 。從這個角度來看，制造一個錯誤頻發的 AI 其實是很容易的。你完全可以透過調整任何一個開源文本模型，讓其生成各類錯誤資訊。因此，我認為 檢測人工智慧生成的內容是重要領域 ，我們也在致力於此，至少可以判斷出某些內容是否由 AI 生成。

Q：如果很多人開始使用這些智慧體（agent）來編寫程式碼，我想知道這將如何影響 IT 安全。你可能會爭辯說，就像我們在編寫涵蓋所有情況的測試套件方面做得更好一樣。您對此有何看法？對於像 IT 安全這樣的普通程式設計師來說，需要有人為使用者檢查人工智慧所編寫的程式碼嗎？

布林： 確實你們都在選擇職業，我想你應透過算命先生來回答這個問題。不過今天使用人工智慧來編寫單元測試確實很簡單，這是人工智慧做得很好的事情之一。我的希望是 人工智慧會讓程式碼更安全，而不是更不安全。在安全領域，人們懶惰的對此有影響，而人工智慧擅長的就是不懶惰。 因此，人工智慧的安全性可能是一個凈賭註。但我不會為此阻礙你從事 IT 安全職業。

AGI與谷歌的未來

對於AGI的構建和未來的暢想，謝爾蓋·布林表現出難以掩飾的興奮。業內普遍認為，人型機器人將是AGI的最佳載體。現場開發者也提出了有關人型機器人發展的問題。對此，謝爾蓋表示他本人將來不會投入硬體研究，但看好人型機器人的未來。

Q：你想構建AGI嗎？

布林： 不同的人對此有不同的觀點。但對我來說，推理方面真的很令人興奮和驚喜的。 我退休了，只是因為人工智慧的發展。這太令人興奮了。 作為電腦科學家，光是看到這些模型年復一年能做的事，就令人驚喜。所以答案是肯定的。

Q：目前有沒有類似人形機器人方面的進展？就像此前Google X在2015至2016年間頗有成果。

布林： 實際上，我們這些年來做過很多類人機器人的研究，也收購和出售了許多機器人公司。現在有很多公司都在進行類人機器人的研究，我們內部也有一些團隊在從事各種形式的機器人研究。那麽我對此有何看法？老實說，我不太清楚，因為在這波新的 AI 浪潮之前，我主要是在做套用方面的工作，那時的重點更多在硬體計畫上。但我發現，無論是從技術還是商業角度來看，硬體的難度要大得多。我並不是阻礙人們制造硬體，肯定需要有人來做。與此同時，軟體和人工智慧發展得如此迅速，對我而言就像是火箭一般。 如果我被制造當下的硬體所分心，那可能不是最好的選擇，相比之下，下一級的 AI 可能會在未來為我設計一個更加先進的機器人。 那真是太棒了。在 Google，有很多人正致力於此。

Q：谷歌的廣告收益和商業模式會有什麽變化？

布林： 在谷歌的所有人中， 我並不太擔心商業模式的轉變。 25 年的時間裏，我們為每個人免費提供世界一流的資訊搜尋。這得到了廣告的支持。在我看來，這很棒。這對世界來說是件好事，能讓非洲孩子和美國總統一樣容易獲取基本資訊。與此同時，我預計商業模式將隨著時間的推移而發展。也許依然是廣告，因為無論哪種廣告型別效果都會更好，人工智慧可以更好地客製廣告付費模式。即使移步至Gemini Advanced，也有公司的廣告付費模式。 本質上，AI正在提供巨大價值。 取代人工智慧所需的腦力勞動，無論是時間、勞動力還是財產等，都是巨大的。在搜尋領域，也是同樣的道理。所以 只要有巨大的價值產生，我們就找到清晰的商業模式。

Q：很久以前谷歌推出了谷歌眼鏡，現如今蘋果有Vision Pro。我認為谷歌眼鏡的推出在之前還為時過早，你會考慮再試一次嗎？

布林： 我有一些谷歌眼鏡，但我覺得我之前做了一些錯誤的決定。是的，它肯定是很早的，也許在技術整體發展的早期，我之前試圖把它作為一個產品來推動，但事後看來它更像是一個原型。我對當時對消費硬體的供應鏈知之甚少，還有一堆其他的想法。我仍然喜歡這種輕量級、極簡的顯示器，你可以整天佩戴，而不是我們現在使用的那些笨重的裝置。這只是我個人的偏好。不論是Apple Vision還是Oculus，我都對它們的效能印象深刻。

Q：你是否認為 Gemini 在擴充套件能力方面有可能向3D或者空間計算，甚至是模擬世界的方向發展？特別是在超過了谷歌眼鏡之後，它已經擁有了一些相關的產品，比如谷歌地圖、模組屋、AR核心等等。你是否認為這些產品之間存在某種協同效應？」

布林： 這是一個好問題。我之前並未考慮過這個問題， 我們沒有理由不在其中加入更多類似的3D元素，就像是另一種3D數據模式。 所以可能會有一些有趣的事情發生。我也可以嘗試開啟其他功能。順便說一下，也許有人已經在 Gemini 中嘗試這樣做了。

Q：你認為谷歌搜尋將走向何方？

布林： 對於搜尋這是一個極其激動人心的時刻，因為透過人工智慧，搜尋引擎回答問題的能力要強太多。 極強的檢索能力發展機遇，誕生在檢索條件更具體的情 況。比如，你會問一個非常專業的問題，或與你個人情況有關的問題，這個問題此前在網上沒有人輸入過。畢竟，對於萬人輸入過並深入思考過的問題，檢索答案並不是什麽難事。但對於你關心的獨特且具體的問題，這是一個巨大的機遇，你可以想象你眼中的各種產品以不同方式去交付呈現。在這種情況下， 人工智慧是一個親切的鄰居，它只會做得更好。

4 月 25 ~ 26 日，由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的「 全球機器學習技術大會 」將在上海環球港凱悅酒店舉行，特邀近 50 位技術領袖和行業套用專家，與 1000+ 來自電商、金融、汽車、智慧制造、通訊、工業互聯網、醫療、教育等眾多行業的精英參會聽眾，共同探討人工智慧領域的前沿發展和行業最佳實踐。 歡迎所有開發者朋友存取官網 http://ml-summit.org、點選「閱讀原文」或掃描下方海報中的二維碼 ，進一步了解詳情。