Google I/O 2024：開啟新一代的 I/O

2024-05-15碼農

作者：Sundar Pichai

Google 和 Alphabet CEO

編者按：以下是 Sundar Pichai 在 2024 年 I/O 大會上講話編輯稿，經過調整以包含更多在舞台上宣布的內容。

Google 已全面進入 Gemini 時代。

在深入探討之前，我想先回顧一下我們所處的時刻。十多年來，我們一直在 AI 領域進行投入，並在各個層面進行創新：研究、產品、基礎設施，今天我們將對此進行全面討論。

盡管如此，我們仍處於 AI 平台轉型的初期。我們看到了為創作者、開發者、初創公司以及每一個人所帶來的巨大機遇。幫助推動這些機遇正是我們 Gemini 時代的意義所在。讓我們開始吧。

Gemini 時代

一年前，在 I/O 大會上，我們首次分享了 Gemini 的計劃：一個從一開始就構建為原生多模態的前沿模型，能夠跨文本、影像、視訊、程式碼等多種數據型別進行推理。它標誌著將任意輸入轉換成任意輸出的重要一步——新一代的 "I/O"。

自那以來，我們推出了首批 Gemini 模型，這是我們迄今為止功能最強大的模型。它們在每個多模態基準測試中都擁有卓越的表現。兩個月後，我們又推出了 Gemini 1.5 Pro，它在處理長上下文方面取得了重大突破，能夠穩定地在生產環境中執行 100 萬個令牌 (Token)，比目前任何其他大規模基礎模型都要多。

我們希望每個人都能從 Gemini 的功能中受益。因此，我們立即行動起來，與大家分享這些進展。目前，超過 150 萬的開發者在使用我們各種工具中的 Gemini 模型。你們使用它來偵錯程式碼、獲得新的見解並打造下一代的 AI 套用。

我們也在不斷將 Gemini 的突破性功能以強大的方式整合到我們的產品中。今天，我們將展示搜尋、Photos、Workspace 和 Android 等產品中的例項。

產品進展

今天，我們所有擁有 20 億使用者的產品都在使用 Gemini。

我們還推出了全新的體驗，包括在行動裝置上，人們現在可以透過 Android 和 iOS 上的應用程式直接與 Gemini 互動，Gemini Advanced 讓使用者還可以使用我們功能最強的模型。僅在三個月的時間裏，已有超過一百萬人註冊試用，並且勢頭依然強勁。

在搜尋中擴充套件 AI Overviews

Gemini 帶來的最令人興奮的變革之一是在 Google 搜尋中。

在過去的一年中，作為我們生成式搜尋體驗 (Search Generative Experience) 的一部份，我們已經回答了數十億個搜尋查詢。人們正在以全新的方式使用搜尋，提出全新型別的問題，作出更長、更復雜的查詢，甚至是透過照片進行搜尋，並獲得網路上的最佳資訊。

我們一直在 Labs 之外對這種體驗進行測試。我們倍受鼓舞地看到，不僅搜尋的使用量有所增加，使用者滿意度也得到了提升。

我很高興宣布，我們將於本周在美國向所有使用者推出這一全新改版的 AI Overviews 體驗。我們很快也將把這項體驗推廣到更多國家。

在搜尋領域正發生著諸多創新。得益於 Gemini，我們能夠打造更為強大的搜尋體驗，包括在我們的產品之中。

介紹 Ask Photos

Google Photos 就是一個例子，在大約九年前，我們釋出了這款產品，自那以來，人們一直用它來整理最珍貴的回憶。如今，每天上傳的照片和視訊數量超過 60 億。

人們喜歡使用 Photos 來搜尋他們生活中的點滴。借助 Gemini，我們讓這一切變得更加簡單。

假設你在停車場繳費時，卻想不起自己的車牌號。以往，你需要在 Photos 中搜尋關鍵詞，然後翻找多年積累的照片來尋找車牌。但現在，你只需直接詢問 Photos 即可。它能夠辨識出經常出現的車輛，透過多方資訊交叉驗證判斷出哪一輛是你的，並提供車牌號碼。

Ask Photos 還能夠幫助你以更深入的方式重溫回憶。例如，你可能正在回味女兒 Lucia 成長的早期重要時刻。現在，你可以直接問 Photos: "Lucia 是什麽時候學會遊泳的？"

你甚至可以跟進提出更復雜的問題："向我展示 Lucia 的遊泳技能是怎麽進步的。"

在這裏，Gemini 不再只是進行簡單的搜尋，它會辨識不同的上下文——從在遊泳池中撲騰，到在海洋中浮潛，再到她遊泳證書上的文字和日期。Photos 會將所有這些資訊整合在一起形成一個總結，讓你能夠全面了解，並再次重溫那些美妙的回憶。我們將在今年夏天推出 Ask Photos，並將持續增加更多功能。

透過多模態和長上下文
解鎖更多知識

為了理解跨越不同格式的各種知識，我們從一開始就將 Gemini 打造成多模態的。它是一個內建了所有模態的模型。因此，它可以理解不同型別的輸入，並找到它們之間的聯系。

多模態從根本上擴充套件了我們可以提出的問題以及我們將得到的答案。而長文本能力則使其更進一步，讓我們能夠引入更多資訊：數百頁文本、數小時音訊或一小時視訊、整個程式碼儲存庫……或者，如果你願意，大約 96 份芝士蛋糕工廠餐廳的選單。

處理這麽大量的選單，你可能需要 100 萬令牌的上下文視窗，而現在透過 Gemini 1.5 Pro 就可以實作。開發者們就一直在以各種非常有趣的方式使用它。

在過去的幾個月裏，我們已經推出了具有長上下文能力的 Gemini 1.5 Pro 的預覽版，我們還對轉譯、編碼和推理的品質進行了一系列改進。從今天開始，你也將在模型中看到這些更新。

現在我很高興地宣布，我們將向全球所有開發者推出改進版的 Gemini 1.5 Pro。此外，從今天開始，具有 100 萬令牌上下文能力的 Gemini 1.5 Pro 也可供 Gemini Advanced 的消費者直接使用，包含 35 種語言。

在非公開預覽版中
擴充套件到 200 萬令牌

100 萬令牌正在開辟全新的可能性。這已經很振奮人心，但我認為我們還可以更進一步。

今天，我們將上下文視窗擴充套件到 200 萬個令牌，並將其以非公開預覽版的方式提供給開發者們。

過去幾個月來我們所取得的進展讓我非常激動，這代表著我們朝無限上下文的最終目標又邁出了一步。

將 Gemini 1.5 Pro
套用於 Workspace

到目前為止，我們已經分享了兩項技術進步：多模態和長上下文。他們各自已經非常強大，但二者結合能夠釋放更深層次的能力和更多的智慧。

這在 Google Workspace 中體現得更加淋漓盡致。

長期以來，人們總在 Gmail 中搜尋他們的電子信件。而現在我們正透過 Gemini 使其變得更加強大。例如，作為家長，你希望隨時了解孩子在學校發生的一切，Gemini 就可以幫助你！

現在，我們可以讓 Gemini 總結學校最近發來的所有電子信件。在後台，它可以辨識相關電子信件，甚至分析 PDF 等附件，你可以獲得一份包含關鍵要點和待辦事項的摘要。也許你本周正在旅途中，無法參加家長會議，而會議錄音長達一個小時。如果這份錄音來自於 Google Meet，你就可以讓 Gemini 為你提供重點內容。倘若有個家長小組正在尋找誌願者，而你那天正好有空，那麽當然，Gemini 還可以幫助你起草回復信件。

還有無數其他例子可以說明 Gemini 如何讓生活更輕松。今天起 Gemini 1.5 Pro 已經套用在 Workspace Labs 中。

NotebookLM 中的音訊輸出

我們剛剛看了一個文本輸出的例子，但透過多模態模型，我們可以做得更多。

我們在這方面已經取得了進展，未來還會有更多。NotebookLM 中的音訊概述 (Audio Overview) 就顯示了在這方面的進展：它透過 Gemini 1.5 Pro，可以基於你的原始檔生成個人化和互動式音訊對話。

這就是多模態帶來的可能性，很快你就能夠將輸入和輸出進行混合和匹配，這就是我們所說的新一代 I/O 的意思。但如果我們還能再進一步呢？

使用 AI 智慧體更進一步

在這一方面更進一步就是我們在 AI 智慧體 (AI Agents) 上看到的機遇之一。我認為它們是可以推理、規劃和記憶的智慧系統。它們能夠提前多步 "思考"，跨軟體和系統工作，所有這些都是為了幫助你完成任務，而最重要的是要在你的監督之下。

我們仍處於早期階段，但讓我向你展示一些我們正在努力解決的套用案例的型別。

讓我們以購物為例。買鞋很有意思，但當鞋子不合適需要退貨時就不那麽有趣了。

想象一下，如果 Gemini 可以為你完成所有步驟：

在你的收件箱中搜尋收據……

從你的電子信件中找到訂單號……

填寫退貨表格……

甚至安排 UPS 取件。

那是不是容易多了？

讓我們再舉一個更復雜一些的例子。

假設你剛搬到芝加哥。想象一下 Gemini 和 Chrome 能夠共同協作幫助你做很多準備工作——代替你組織、推理、綜合分析等。

比如，你想要探索這座城市並找到附近的服務——從幹洗店到遛狗服務，你還必須在數十個網站上更新你的新地址。

現在 Gemini 可以勝任這些工作，並在需要時提示你提供更多資訊。這樣事情始終在你的掌控之中。

這部份非常重要——當我們做這些體驗的原型設計時，我們深思熟慮如何以一種私密、安全且對每個人都適用的方式來進行。

這些都是簡單的套用案例，但它們可以讓你很好地了解到，透過構建能夠代表你去提前思考、推理和計劃的智慧系統，我們希望能夠解決的問題型別。

這對我們的使命意味著什麽

Gemini 憑借其多模態、長上下文和智慧體，使我們更接近我們的最終目標：讓 AI 助力每個人。

我們認為，這是我們在達成使命方面取得最大進展的方式：整合以各種方式輸入的全球資訊，使其可以透過任何輸出方式被獲取，並將全球資訊與你的世界中的資訊結合起來，以一種真正對你有用的方式進行呈現。

新的突破

為了充分發揮 AI 的潛力，我們需要開創新領域，谷歌 DeepMind 團隊一直致力於此。

我們已經收到了大家對 1.5 Pro 及其長上下文視窗的熱情反饋，但我們也從開發人員那裏了解到，他們想要更快、更具成本效益。因此，明天，我們將推出 Gemini 1.5 Flash，一個為規模化構建的更輕量級的模型，它針對以低延遲和成本為重的任務進行了最佳化。1.5 Flash 將於周二在 AI Studio 和 Vertex AI 中提供。

展望未來，我們始終希望構建一個在日常生活中有用的通用智慧體。Astra 計畫展示了多模態理解和即時對話能力。

我們還在視訊和影像生成方面取得了進展，推出了 Veo 和 Imagen 3，並推出了 Gemma 2.0——我們為負責任的 AI 創新打造的下一代開放模型。

AI 時代的基礎設施：
介紹 Trillium

訓練最先進的模型需要大量的計算能力。過去六年中，行業對機器學習計算能力的需求增長了 100 萬倍。而且，每年都會以十倍的速度增長。

Google 在這方面具有優勢。25 年來，我們一直在投資世界一流的技術基礎設施，從支持搜尋的尖端硬體，到為我們的 AI 進步提供支持的客製張量處理單元 (tensor processing units)。

Gemini 完全在我們的第四代和第五代 TPU 上進行訓練和服務。包括 Anthropic 在內的其他領先的 AI 公司也已經在 TPU 上訓練了他們的模型。

今天，我們很高興地宣布推出第六代 TPU——Trillium。Trillium 是我們迄今為止效能最強、效率最高的 TPU，與上一代 TPU v5e 相比，每個芯片的計算效能提高了 4.7 倍。

我們將在 2024 年底向 Cloud 客戶提供 Trillium。

除了我們的 TPU，我們還推出 CPU 和 GPU 來支持任何工作負載。這包括我們上個月宣布的新型 Axion 處理器，我們的首款基於 Arm 客製的 CPU，可提供業界領先的效能和能效。

我們也很自豪成為首批提供 Nvidia 尖端 Blackwell GPU 的 Cloud 提供商之一，該 GPU 將於 2025 年初上市。我們很幸運能與 NVIDIA 建立長期合作夥伴關系，並很高興能將 Blackwell 的突破性功能帶給我們的客戶。

芯片是我們整合端到端系統的基礎部份，從效能最佳化的硬體和開放軟體到靈活的消費模式。所有這些都匯集在我們的 AI 超級電腦 (AI Hypercomputer) 中，這是一種開創性的超級電腦架構。

企業和開發者正在使用它來應對更復雜的挑戰，其效率是僅購買原始硬體和芯片的兩倍多。我們的 AI 超級電腦的進步之所以成為可能，是因為我們在數據中心采用了液體冷卻的方法。

我們已經這樣做近 10 年了，遠早於它成為行業的先進技術。如今，我們部署的液體冷卻系統總容量已接近 1 吉瓦，並且還在不斷增長——這幾乎是任何其他團隊的 70 倍。

這背後的基礎是我們龐大的網路規模，它連線了我們全球的基礎設施。我們的網路覆蓋了超過 200 萬英裏的陸地和海底光纖：是緊隨之後的雲服務提供商的 10 倍 (！) 以上。

我們將繼續進行必要的投資，以推進 AI 創新並提供最先進的功能。

搜尋最激動人心的篇章

我們最大的投資和創新領域之一是我們的創始產品——搜尋。25 年前，我們建立了搜尋，以幫助人們理解互聯網上洶湧的資訊浪潮。

隨著每一次平台的轉變，我們都在幫助更好地回答你的問題上取得了突破。在行動裝置上，我們利用更好的上下文、位置感知和即時資訊，解鎖了新型的問題和答案。隨著自然語言理解和電腦視覺技術的進步，我們實作了新的搜尋方式，可以用語音或哼唱來找到你最喜歡的新歌；或者用你在散步時看到的那朵花的影像來進行搜尋。現在，你甚至可以使用 Circle to Search 來搜尋你可能想要購買的那些很酷的新鞋。去試試吧，反正你總能退貨！

當然，Gemini 時代的搜尋將把這一切提升到一個全新的水平，它將把我們的基礎設施優勢、最新的 AI 功能、對資訊品質的高標準以及數十年來把你與豐富的網路連線起來的經驗相結合。其結果將是一款為你工作的產品。

Google 搜尋是生成式 AI，其規模足以滿足人類好奇心。這是我們迄今為止最激動人心的搜尋篇章。

更智慧的 Gemini 體驗

Gemini 不僅僅是一個聊天機器人；它旨在成為你得力的私人助手，可以幫助你處理復雜的任務並代表你采取行動。

與 Gemini 的互動應該是對話式的、直觀的。因此，我們宣布推出稱為 Live 的全新 Gemini 體驗，讓你可以使用語音與 Gemini 進行深入對話。我們還會在今年晚些時候將 Gemini Advanced 提升為 200 萬個令牌，以便能夠上傳和分析視訊和長程式碼等超密集檔。

Android 上的 Gemini

全球有數十億 Android 使用者，因此我們很高興能將 Gemini 更深入地融入使用者體驗。作為你的全新 AI 助手，Gemini 可隨時隨地為你提供幫助。我們已將 Gemini 模型整合到 Android 中，包括我們最新的裝置端模型：Gemini Nano 多模態模型 (Gemini Nano with Multimodality)，它可以處理文本、影像、音訊和語音，在保證儲存在裝置上的資訊私密性的同時解鎖新的體驗。

我們負責任的 AI 方法

我們繼續大膽而振奮地把握住 AI 所帶來的機遇。同時，我們也在確保以負責任的方法行事。我們正在開發一種叫做 AI 輔助紅隊測試 (AI-assisted red teaming) 的尖端技術，該技術利用了 Google DeepMind 在 AlphaGo 等遊戲方面的突破以改進我們的模型。此外，我們也已將 SynthID 浮水印工具擴充套件到文本和視訊兩種新的模態，因此更容易辨識 AI 生成的內容。

共同創造未來

所有這些都表明了我們在以大膽而負責任的方法，讓 AI 助力每個人方面取得的重要進展。

很長一段時間以來，我們一直采用 AI 為先的方法。我們數十年的研究領導者地位開創了許多現代突破，為我們和整個行業的 AI 進步提供了動力。最重要的是，我們擁有：

專為 AI 時代打造的世界領先基礎設施

現在由 Gemini 提供支持的搜尋領域的尖端創新

在極大規模上提供幫助的產品——包括 15 款擁有 5 億使用者的產品

讓每個人——合作夥伴、客戶、創作者以及所有人——都能創造未來的平台。

這一進步之所以能夠實作，是因為我們卓越的開發者社群。透過每天建立的體驗和應用程式，你們將這一切變為現實。在此，我要向在 Shoreline 現場的各位以及全球數百萬線上觀看的朋友們致意：讓我們共同迎接未來的無限可能，攜手共創美好未來。