字節跳動釋出豆包大模型，卷起價格戰；騰訊混元文生圖大模型全面開源

2024-05-15資訊

整理 | 王軼群

出品 | AI 科技大本營（ID：rgznai100）

一分鐘速覽新聞點！

OpenAI聯合創始人兼首席科學家 Ilya Sutskever 離職

AWS 執行長亞當·塞利普斯基將辭職

谷歌將Gemini 1.5 Pro 上下文視窗擴充套件到200萬 tokens，一舉釋出近10款模型

第一個中文原生DiT架構，騰訊混元文生圖大模型開源

字節跳動釋出豆包大模型，主力模型比行業價格低99.3%

Memo AI 現已支持 GPT-4o 轉譯視訊字幕

Anthropic 在歐洲推出 Claude 聊天機器人和訂閱計劃

全球 AI 要聞

OpenAI聯合創始人兼首席科學家 Ilya Sutskever 離職

Ilya Sutskever 5月15日早間在社交媒體X上發文稱，近十年後決定離開OpenAI，並表示「我很期待接下來的計劃，這個計畫對我個人來說意義重大，我會在適當的時候分享細節。」OpenAI執行長山姆·奧爾特曼(Sam Altman)也在X上發文稱， Ilya Sutskever 和 OpenAI 即將分道揚鑣。如果沒有他，OpenAI就不會有今天。雖然他有自己有意義的工作要做，但永遠感激他在這裏所做的一切。雅庫布·帕喬基(Jakub Pachocki)將成為新任首席科學家。

據報道，雅庫布·帕喬基此前曾擔任 OpenAI 研究總監，並領導 GPT-4 和 OpenAI Five 的開發。（路透社）

AWS 執行長亞當·塞利普斯基將辭職

亞馬遜執行長安迪·賈西(Andy Jassy) 表示，AWS 執行長亞當·塞利普斯基(Adam Selipsky)將於6月3日辭職，由馬特·加曼(Matt Garman)接替。

Selipsky於2005年加入AWS，並於2021年成為執行長。 Selipsky 一直是亞馬遜圍繞生成式 AI 釋出的領軍人物，例如部署 Nvidia 的 GH200 芯片、推出名為 Amazon Q 的聊天工具，以及推出亞馬遜自己的 Trainium AI 芯片的新版本。（The Verge）

谷歌將 Gemini 1.5 Pro 上下文視窗擴充套件到200萬 tokens，一舉釋出近10款模型

在Google I/O 2024 大會上，谷歌將 Gemini 1.5 Pro 上下文視窗擴充套件到了 200 萬個 tokens，並以私人預覽版的形式提供給開發人員。Gemini 1.5 Pro 現在可以直接在 Gemini Advanced 中供消費者使用，可以跨 35 種語言使用。

谷歌一舉釋出了近10款模型：

比 Gemini 1.5 Pro 更輕量級的 Gemini 1.5 Flash 釋出，針對低延遲和成本等重要的任務進行了最佳化。

可制作「高品質」 1080p 視訊的 Veo 模型和文本生成影像模型 Imagen 3 釋出。最新、最先進的視訊生成模型Veo：可以視為對標 OpenAI 的 Sora，Google 在今天推出了視訊生成模型 Veo，它可以生成各種電影和視覺風格的高品質 1080p 分辨率視訊，時間可以超過一分鐘。

采用全新架構、27B 大小尺寸的 Gemma 2.0：Gemma 2 將提供新尺寸，並采用專為突破性效能和效率而設計的全新架構。Gemma 2 具有 270 億個參數，其效能可與 Llama 3 70B 相媲美，但尺寸卻只有 Llama 3 70B 的一半。

第一個包含內建裝置基礎模型的行動作業系統，Android深度整合了 Gemini 模型，成為以 Google AI 為核心的作業系統。

第六代 TPU Trillium 釋出，與上一代 TPU v5e 相比，每個芯片的計算效能提高了 4.7

Google 第一個視覺語言開放模型 PaliGemma 現已推出。

Google 釋出了一個名為「AI 概述」（AI Overviews）的功能，做到「一次搜尋，獲得所有資訊」。在照片搜尋套用層面上，Google 帶來了一個「詢問照片」（Ask Photos）功能。

新增 NotebookLM 中的音訊輸出。

Google DeepMind CEO、聯合創始人 Demis Harbis 透露，Google 內部一直在致力於開發對日常生活有幫助的通用 AI Agent，Project Astra（高級視覺和說話響應代理）便是主要的嘗試之一。

第一個中文原生DiT架構，騰訊混元文生圖大模型開源

5月14日，騰訊宣布旗下的混元文生圖大模型全面升級並對外開源，目前已在 Hugging Face 平台及 Github 上釋出，包含模型權重、推理程式碼、模型演算法等完整模型，可供企業與個人開發者免費商用。

據了解，這是業內第一個中文原生的DiT架構文生圖開源模型，支持中英文雙語輸入及理解，參數量15億。升級後的混元文生圖大模型采用了與 sora 一致的DiT架構，不僅可支持文生圖，也可作為視訊等多模態視覺生成的基礎。

升級後的混元文生圖模型采用了基於Transformer的擴散模型架構（簡稱DiT），具備更強的可延伸性，在參數量越多的情況下，效能越強，有利於提升視覺模型生成效果及效率。這也是此前爆紅的文生視訊產品Sora 背後的關鍵技術。

目前，騰訊混元文生圖模型參數量達 15 億。評測數據顯示，最新的騰訊混元文生圖模型效果相比前代提升超過 20%，遠超開源的Stable Diffusion模型，在目前已開源的文生圖模型中，綜合效能最佳，達到國際領先水平。

據了解，騰訊在開源上一直持開放態度，已開源了超 170 個優質計畫，均來源於騰訊真實業務場景，覆蓋微信、騰訊雲、騰訊遊戲、騰訊AI、騰訊安全等核心業務板塊，目前在Github上已累計獲得超 47 萬開發者關註及點贊。

字節跳動釋出豆包大模型，主力模型比行業價格低99.3%

5月15日，字節跳動豆包大模型在火山引擎原動力大會上正式釋出。火山引擎是字節跳動旗下雲服務平台，據火山引擎總裁譚待介紹，經過一年時間的叠代和市場驗證，豆包大模型正成為國內使用量最大、套用場景最豐富的大模型之一，目前日均處理1200億Tokens文本，生成3000萬張圖片。

「大的使用量，才能打磨出好模型，也能大幅降低模型推理的單位成本。豆包主力模型在企業市場的定價只有0.0008元/千Tokens，0.8厘就能處理1500多個漢字，比行業便宜99.3%，」譚待表示，大模型從以分計價到以厘計價，將助力企業以更低成本加速業務創新。

豆包大模型原名「雲雀」，是國內首批透過演算法備案的大模型之一。據悉，字節跳動基於豆包大模型打造了AI對話助手「豆包」、AI套用開發平台「扣子」、互動娛樂套用「貓箱」，以及星繪、即夢等AI創作工具，並把大模型接入抖音、番茄小說、飛書、巨量引擎等50余個業務，用以提升效率和最佳化產品體驗。

Memo AI 現已支持GPT-4o 轉譯視訊字幕

5月14日，MemoAI官網釋出推文表示，Memo AI 現已支持GPT-4o 轉譯視訊字幕。測試下來速度快，轉譯效果不錯，合並情況少。對比 turbo 降低50%的成本，速度提升了兩倍。

Memo AI 可以將任何沒有字幕的視訊即時生成所需語言的字幕和筆記，支持多語言轉錄和轉譯，方便使用者提取核心內容。

Anthropic 在歐洲推出 Claude 聊天機器人和訂閱計劃

Anthropic，亞馬遜支持的人工智慧初創公司5月13日表示，將於5月14日在歐洲推出生成式人工智慧助手 Claude。個人和企業可以透過網路和 iPhone 應用程式使用它。Anthropic 的 Claude 助手的付費訂閱版本名為 Claude Pro，將提供給想要存取其所有模型的使用者，包括 Anthropic 最先進的產品 Claude 3 Opus。Anthropic 還推出了以業務為中心的 Claude Team 訂閱計劃，每月費用為 28 歐元（30 美元），不含增值稅 (VAT)。Anthropic 執行長兼聯合創始人 Dario Amodei 在周二的一份聲明中表示：「我們在設計 Claude 時就堅定地致力於準確性、安全性和私密性。」歐盟今年早些時候透過了世界上第一套管理人工智慧的主要監管基本規則。（CNBC）

字節跳動釋出豆包大模型，卷起價格戰；騰訊混元文生圖大模型全面開源 | AI 頭條