當前位置: 妍妍網 > 資訊

傅盛:OpenAI遇到了困難;多家高校聯合訓練第一個中文大模型;北大開源復現Sora | AI頭條

2024-04-08資訊

整理 | 王啟隆

出品 | AI 科技大本營(ID:rgznai100)

一分鐘速覽新聞點!

  • 獵豹 CEO 傅盛:OpenAI 遇到了困難

  • Chinese Tiny LLM:預訓練第一個以中文為核心的大語言模型

  • 北大發起的開源計畫 Open-Sora-Plan v1.0.0 正式釋出

  • Google 考慮對人工智慧搜尋進行收費

  • 南洋理工 x 商湯科技推出用於統一多模態運動生成的「大運動模型」

  • 阿裏巴巴推出 Qwen1.5-32B 模型

  • 史丹佛大學團隊推出可以在行動裝置上執行的 2B 端側模型 Octopus v2

  • DeepMind 釋出文本嵌入模型 Gecko

  • DeepMind 最新研究 Mixture-of-Depths 提高 Transformer 計算效率

  • 戴爾入場投資芯片初創公司 SiMa.ai

  • Gretel 釋出全球最大的開源文本到 SQL 數據集

  • 微軟透過更多儲存和對大型 RAG 應用程式的支持來提升 Azure AI 搜尋

  • 全球 AI 要聞

    獵豹 CEO 傅盛:OpenAI 遇到了困難

    4 月 6 日,獵豹移動 CEO 傅盛在抖音發表觀點,認為 ChatGPT 取消註冊限制很可能是因為 OpenAI 目前遇到了困難:一、使用者增速放緩,幾近下跌;二、OpenAI 面臨來自 Google DeepMind 等 AI 團隊的強力競爭;三、GPT-5 遲遲沒有亮相,可能是因效能不足或成本過高。傅盛猜測未來 AI 變革的核心關鍵是找到一條「 成本高產出 」的道路,用更小的參數實作專項能力。

    Chinese Tiny LLM:預訓練第一個以中文為核心的大語言模型

    來自多所頂尖高校及研究機構(復旦大學、北京大學、上海交通大學、香港科技大學、滑鐵盧大學、快手公司和 Vector Institute)的研究團隊,聯合推出了一款名為 CT-LLM(Chinese Tiny LLM)的 200 億參數大型語言模型。 該模型標誌著大型語言模型研究開始聚焦中文領域,從零開始訓練,主要基於包含 8000 億中文、3000 億英文和 1000 億 code tokens 的 12000 億 tokens 語料庫,尤其是針對中文數據進行了最佳化處理,並運用對齊技術增強了其在中文處理上的能力。

    CT-LLM 在 CHC-Bench 中文任務上表現卓越,同時透過 SFT 也能適應英文環境,挑戰了以往依賴英文語料庫進行大型語言模型訓練的傳統模式。研究團隊開源了 CT-LLM 的訓練流程以及大規模適用預訓練中文語料庫(MAP-CC),並推出了涵蓋多學科難題的中文基準測試工具——CHC-Bench,旨在推動更包容、更具適應力的語言模型研究與創新。

    GitHub: https://github.com/Chinese-Tiny-LLM/Chinese-Tiny-LLM

    論文: https://arxiv.org/pdf/2404.04167.pdf

    北大 Open-Sora-Plan v1.0.0 正式釋出

    北大-兔展 AIGC 聯合實驗室共同發起的復現 OpenAI Sora 的開源計畫:Open-Sora-Plan v1.0.0 模型正式釋出,大大提高了視訊生成品質和文本控制能力。

    目前, Open-Sora-Plan v1.0.0 可以生成 10 秒、24 FPS 的 1024×1024 視訊 S ora 可以生成 1 分鐘高畫質視訊) ,而且還能夠生成高分辨率圖 像。Open-Sora-Plan v1.0.0 模型還支持了國產 AI 芯片華為昇騰 910b 訓練與推理,接下來還會支持更多國產 AI 芯片。

    GitHub: https://github.com/PKU-YuanGroup/Open-Sora-Plan

    Google 考慮對人工智慧搜尋進行收費

    據【金融時報】當地時間 4 月 4 日報道,谷歌正考慮對由生成式人工智慧驅動的新高級功能收費,這將是谷歌搜尋業務有史以來最大的一次變革。多年來谷歌一直提供完全由廣告資助的免費消費者服務,對其搜尋引擎的擬議改革將標誌著谷歌首次將其核心產品都置於「付費墻」之後。(澎湃新聞)

    南洋理工 x 商湯科技推出用於統一多模態運動生成的「大運動模型」

    新加坡南洋理工大學 S-Lab 與商湯科技聯合研究團隊推出大型運動模型( L ar ge Motion Model,簡稱 LMM ),革新動畫及視訊制作領域的人體動作生成技術。LMM 框架集多種任務於一體,包括文本轉動作和音樂轉舞蹈等,打破了過去針對單一任務設計模型的局限性。

    GitHub: https://github.com/mingyuan-zhang/LMM

    論文: https://arxiv.org/pdf/2404.01284.pdf

    視訊: https://www.youtube.com/watch?v=Aprm9h8lFj4

    阿裏巴巴推出 Qwen1.5-32B 模型

    阿裏巴巴紐推 Qwen1.5-32B 語言模型,著力於效能與效率平衡,借助分組查詢註意力技術,最佳化推理效率和效能。透過 RLHF 強化訓練,對話互動能力顯著提升,提供自然流暢的聊天體驗。在多項基準測試中,該模型與同級競品相比展示有利競爭,涵蓋多語言理解、生成任務。Qwen1.5-32B 已驗證支持 12 種外語,展現出色的多語言能力。

    GitHub: https://github.com/QwenLM/Qwen1.5

    Hugging Face: https://huggingface.co/Qwen

    史丹佛大學團隊推出可以在行動裝置上執行的 2B 端側模型 Octopus v2

    近日,史丹佛大學團隊推出 Octopus v2,可以在智慧型手機、汽車、個人電腦等端側執行,在準確性和延遲方面超越了 GPT-4,並將上下文長度減少了 95%。此外,Octopus v2 比 LLaMA 7B + RAG 的方案快 36 倍。

    論文: https://arxiv.org/pdf/2404.01744.pdf

    Hugging Face: https://huggingface.co/NexaAIDev/Octopus-v2

    DeepMind 釋出文本嵌入模型 Gecko

    DeepMind 近日推出新型文本嵌入模型 Gecko,以其高效緊湊的設計與卓越的檢索效能引人註目。該模型透過創新的兩階段知識蒸餾法,充分利用大型語言模型的能力,首先生成多元合成訓練樣本,繼而借助 LLM 精選高品質查詢-段落對並重新標註正負樣本。在權威的大規模文本嵌入基準測試 MTEB 中,僅 256 維尺寸的 Gecko 就擊敗了所有 768 維尺寸競品,並且 768 維版本的 Gecko 得分高達 66.31,表現可媲美體積大 7 倍、維度高 5 倍的模型。這項突破標誌著 Gecko 在提加文本檢索效率的同時,顯著降低了計算資源需求。

    論文: https://arxiv.org/pdf/2403.20327.pdf

    DeepMind 最新研究 Mixture-of-Depths 提高 Transformer 計算效率

    Google DeepMind 最新力作 Mixture-of-Depths 在開發者社群引發熱議,已登上 HackerNews 熱榜。

    該論文的核心思想是提出了一種全新的 Transformer 架構最佳化方法,允許模型動態分配 FLOPs(或計算資源)至序列中的特定位置,以適應不同層和模型深度的需求。論文透過設定一個預先定義好的參數 k,限制每層中參與自註意力機制和 MLP 計算的令牌數量,從而控制總體計算預算。網路采用 top-k 路由機制來決定需要處理的令牌。

    經過這種訓練方式的模型能有效地學習到動態分配計算資源,並在保持與基準模型相同效能的前提下,減少每次前向傳播所需的 FLOPs,同時在訓練後采樣階段,模型步進速度可提升高達 50%。這表明,在大規模語言模型推理過程中,無論是預填充階段還是解碼階段,輸入輸出的令牌並不需要所有參數都參與計算,而是應根據實際情況動態參與計算,從而實作更高效、更智慧的資源分配。

    論文: https://arxiv.org/abs/2404.02258

    戴爾入場投資芯片初創公司 SiMa.ai

    矽谷邊緣人工智慧芯片公司 SiMa.ai 昨日宣布成功募集了 7000 萬美元的新一輪融資,進一步突顯市場對邊緣 AI 技術的強勁興趣及投資趨勢。值得註意的是,此次融資中包含戴爾科技資本的戰略投資,這是戴爾科技資本過去一年中唯一涉足硬體科技領域的投資計畫,顯示了其對 SiMa.ai 技術路徑和邊緣 AI 發展前景的高度認可。透過整合 SiMa.ai 的軟體優先、易於部署和管理的邊緣 AI 解決方案,戴爾有望將其產品線擴充套件至新的企業套用領域,並利用不斷擴大的市場需求,發掘邊緣人工智慧帶來的商業潛能。

    Gretel 釋出全球最大的開源文本轉 SQL 數據集

    人工智慧合成數據公司 Gretel 日前公布一項重大進展,釋出了全球最大規模的開源文本轉 SQL 數據集,旨在加快人工智慧模型訓練行程,並在全球範圍內開啟企業套用新可能。該數據集包含超過 10 萬條覆蓋 100 個行業領域的精細合成文本轉 SQL 樣本,現依據 Apache 2.0 授權在 Hugging Face 平台開放獲取。此舉標誌著 Gretel 致力於賦能開發者構建強大的 AI 模型,使其能夠理解和轉化自然語言查詢為 SQL 查詢,有力連線業務使用者與復雜資料來源,為解決二者間的互動難題提供有力支持。

    Hugging Face: https://huggingface.co/datasets/gretelai/synthetic_text_to_sql

    微軟透過更多儲存和對大型 RAG 應用程式的支持來提升 Azure AI 搜尋

    微軟 Azure AI 搜尋服務近日升級,大幅提升向量和儲存容量,使開發者在構建生成式 AI 套用時能以更經濟的成本享用更大規模的數據服務。此次更新不僅將向量索引擴大 11 倍、儲存容量提升 6 倍,並增強了索引和查詢處理效率,保證大規模套用(如數十億級向量索引)執行時的速度與效能不受影響。該最佳化將普惠訂閱 Azure AI 搜尋基礎和標準版的全球多個國家和地區使用者,包括美國、歐洲多國、亞洲及澳洲等地。同時,Azure AI 搜尋已拓展對合作方 OpenAI 套用的支持,助力企業實作更精準、個人化的 AI 套用體驗。


    4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的「 全球機器學習技術大會 」將在上海環球港凱悅酒店舉行,特邀近 50 位技術領袖和行業套用專家,與 1000+ 來自電商、金融、汽車、智慧制造、通訊、工業互聯網、醫療、教育等眾多行業的精英參會聽眾,共同探討人工智慧領域的前沿發展和行業最佳實踐。 歡迎所有開發者朋友存取官網 http://ml-summit.org、點選「閱讀原文」或掃碼進一步了解詳情。