谷歌猛烈AI攻勢來了！Gemini 1.5 Pro開放、首款Arm架構CPU、卷入視訊模型大戰

2024-04-11資訊

作者 | 王軼群

責編 | 唐小引

出品丨AI 科技大本營（ID：rgznai100）

繼Gemma、Gemini、Gemini 1.5相繼釋出之後，谷歌在人工智慧的布局上又下一城。

在Cloud Next大會上，谷歌放出不少AI「炸彈」，包括Gemini 1.5 Pro正式開放、加入AI視訊模型大戰、釋出程式碼模型CodeGemma，即將推出AI芯片等一系列密集動作。

Gemini 1.5 Pro 全面公測

剛釋出就被Sora的光環所掩蓋的Gemini 1.5 Pro，也官宣正式開放。

谷歌Gemini 1.5 Pro可以為不同模態執行高度復雜的理解和推理任務，同時可以在更長的程式碼塊中執行更相關的問題解決任務。Gemini 1.5 Pro可處理100萬token，比Claude 3中最大的200K上下文，直接高出了五倍！而GPT-4 Turbo，上下文也只有128K。

在超長上下文理解能力下，Gemini 1.5 Pro能夠理解、比較並對比兩部電影的完整劇本，幫助使用者決策哪部更值得一看；能夠在推理時遵循完整的語言手冊，將英語轉譯成德國的一種不到2000人使用的語言；在一篇長論文中找到、理解並解釋一個小圖表：Gemini 1.5 Pro能夠從DeepMind的Gemini 1.5 Pro論文中提取出「表8」，並解釋該表的含義。

值得一提的是，Gemini 1.5 Pro還可以完成對視訊是否由AI生成的鑒別，如觀看、理解和區分OpenAI Sora視訊中的內容是否由AI生成，Gemini 1.5 Pro突出顯示了Sora的貓視訊，並強調了為什麽它可能是由AI生成的關鍵因素。

今年2月釋出時，Gemini 1.5 Pro目前尚未對公眾開放，僅有少數使用者加入內測。如今，傳說中的谷歌最強殺器Gemini 1.5 Pro，已經在Vertex AI上開放公測了，人人可免費試用。

此次官宣公測，Gemini 1.5 Pro還添加了音訊處理能力，能處理音訊流，包括語音和視訊中的音訊。這直接無縫打破了文本、影像、音訊和視訊的邊界，一鍵開啟多模態檔之間的分析。在此前的財報電話會議中谷歌介紹，Gemini 1.5 Pro僅憑一個模型就能對多種媒介進行轉錄、搜尋、分析、提問。

自與OpenAI多模態視訊大模型Sora同一天釋出後，掌聲和熱度完全被Sora搶去的Gemini 1.5 Pro，這次公測開放後能否打響翻身仗？雖然在超長上下文在無縫處理輸入資訊方面，仍然有一定的局限性，但Gemini 1.5 Pro的全面開放，讓對大量數據進行本機多模態推理成為可能。從此，多海量的數據，都可以進行全面、多角度的分析。Gemini 1.5 Pro的模型能力已經在個人使用者及企業使用者如思愛普、TBS、Replit的多維任務數據處理中取得優秀實踐成果。

升級「視訊版」Imagen 2.0

自被Sora搶去風頭後，谷歌也正式卷入視訊大模型的激戰。這一次，谷歌放出帶有影像動畫的升級「視訊版」Imagen 2.0。該模型可生成4秒24幀640p的視訊。僅憑文字提示詞，Imagen 2.0 就能創作出即時的動態影像，幀率為每秒24幀，分辨率達360x640像素，時間長度為4秒。

谷歌在Next大會上表示，Imagen 2.0在處理自然景觀、食物影像和動物等主題時，表現尤為出色，在一系列多樣的攝影角度和動作的生成式，能確保整個序列的視覺一致性，並配備了安全過濾和數位浮水印技術。

與此同時，谷歌對Imagen 2.0也升級了影像編輯功能，增加了影像修復、擴充套件、數位浮水印功能。例如，把圖中的男人去掉，一鍵圈出即可，並且Imagen 2.0還能對人物去掉後的景色影像進行自動補全。此外，Imagen 2.0還能實作諸如影像視野擴大、對選定影像的一鍵調整等便捷操作。

Imagen 2.0新增的數位浮水印功能，由Google DeepMind的SynthID驅動。在此功能下，使用者可為圖片和視訊生成隱形浮水印，並驗證它們是否由該模型生成。

程式碼模型CodeGemma釋出

Gemini 1.5 Pro從釋出到公測的兩個月內，谷歌將多種前沿模型引入Vertex AI，包括自家的Gemini 1.0 Pro、輕量級開源模型Gemma，以及Anthropic的Claude 3。其中，程式碼模型CodeGemma釋出引人註目。

最新釋出的輕量級程式碼生成模型CodeGemma，采用的是與Gemma系列相同的架構，並進一步在超過5000億個程式碼Token上進行了訓練。

CodeGemma 7B的預訓練版本（PT）和指令微調版本（IT）在理解自然語言方面表現出色，具有出眾的數學推理能力，並且在程式碼生成能力上與其他開源模型不相上下。CodeGemma 2B則是一個SOTA的程式碼補全模型，可以進行快速的程式碼填充和開放式生成。

論文地址： https://storage.googleapis.com/deepmind-media/gemma/codegemma_report.pdf

值得一提的是，在CodeGemma論文列出的核心團隊名單中，華人成員占近6成。

此外，谷歌在其AI超算平台上，也進行了一系列升級，包括升級的Nvidia芯片、新軟體、靈活的消費模式。其中，谷歌雲的張量處理單元TPU v5p上線，谷歌與輝達合作加速AI開發。

如今，該客製芯片全面向雲客戶開放。這些都進一步提升了谷歌雲在AI領域的競爭力。

首款Arm架構CPU芯片

在硬體方面，谷歌也丟出了一枚王炸。

在Next大會上，谷歌正式宣布，將自研首款基於Arm架構的CPU芯片Axion，該芯片為數據中心專用的AI芯片，專為處理從YouTube廣告到大數據分析等多元任務設計。

這款芯片延續了谷歌超過十年的芯片創新歷程，自 2022 年底 ChatGPT 引發 AI 競賽以來，谷歌更加倚重自研芯片策略，試圖減少對外部供應商的依賴。

據谷歌在會上介紹，這款CPU處理器Axion，將提供更好的效能和能源的效率，相較英特爾和AMD的最新x86芯片，效能提高50%，能源效率提高60%；且比起目前基於Arm的最快通用芯片，Axion的效能還要高出30%。

Axion AI芯片意味著，谷歌開啟了與英特爾輝達等傳統合作夥伴的競爭態勢，並向微軟和亞馬遜下戰書。盡管如此，谷歌副總裁 Amin Vahdat 仍表示，此舉旨在做大市場蛋糕而非競爭。

據介紹，Axion將幫助谷歌提高通用工作負載的效能，比如開源資料庫、Web和應用程式伺服器、記憶體緩存、數據分析引擎、媒體處理和AI訓練。在今年晚些時候，Axion即可在谷歌計算引擎、谷歌Kubernetes引擎、Dataproc、Dataflow、Cloud Batch等雲服務中使用。

這款AI芯片屬於CPU，而非AI業界一向推崇的GPU。Axion這樣的CPU可在AI軍備賽中，提升訓練AI模型所需的算力，在算力節省上，CPU具備優勢，且相較於GPU，CPU有助於更快地執行大量數據集，也更省錢。而輝達的Backwell芯片，預計售價在3萬美元到4萬美元之間。

現在，Axion芯片已經在為YouTube廣告、Google Earth引擎提供加持了。原本在使用Arm的客戶，無需重新架構或者重寫應用程式就可以輕松地遷移到Axion上來。

隨後，全球最大的廣告集團WPP宣布與谷歌開展重大合作本次合作將利用 Gemini AI 幫助制作廣告，包括廣告旁白、配音指令碼生成、產品形象塑造。這意味著 Google 的機器人最終有可能為世界上一些最大的品牌制作廣告，例如可口可樂公司、歐萊雅和雀巢。

不僅Next大會的多個AI重磅動作，隨後，谷歌還宣布向所有谷歌照片使用者免費提供人工智慧驅動的編輯工具。之前僅限於 Pixel 裝置和付費訂閱者的一些增強編輯功能，包括人工智慧驅動的 Magic Editor，現在將免費向所有 Google Photos 使用者開放。此擴充套件還包括 Google 的 Magic Eraser，可以從照片中刪除不需要的計畫；Photo Unblur，使用機器學習來銳化模糊的照片；肖像光，可讓您在事後更改照片等的光源。

編輯工具歷來是谷歌高端裝置 Pixel 手機的一個賣點，也是谷歌雲端儲存訂閱產品 Google One 的一大吸重力。但隨著越來越多的人工智慧編輯工具湧入市場，谷歌決定向更多人免費提供其人工智慧照片編輯功能。這些工具將於 5 月 15 日開始推出，需要數周時間才能向所有 Google Photos 使用者提供。使用它們還需要一些硬體裝置要求。但這無疑是谷歌在AI上加大布局、提升競爭力的又一明顯動作。

在2023年的谷歌的I/O 2023大會上，谷歌一口氣推出了大語言模型、AI聊天機器人、AI搜尋、AI辦公助手等多款產品。這次Next大會，谷歌的AI攻勢選擇以量取勝。在即將到來的2024 I/O大會上，谷歌又將有哪些新動作？我們將持續關註。

4 月 25 ~ 26 日，由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的「 全球機器學習技術大會 」將在上海環球港凱悅酒店舉行，特邀近 50 位技術領袖和行業套用專家，與 1000+ 來自電商、金融、汽車、智慧制造、通訊、工業互聯網、醫療、教育等眾多行業的精英參會聽眾，共同探討人工智慧領域的前沿發展和行業最佳實踐。 歡迎所有開發者朋友存取官網 http://ml-summit.org、點選「閱讀原文」或掃碼 進一步了解詳情。