國行 Vision Pro 來了；庫克阿特曼甜蜜「聯姻」

2024-06-11資訊

整理 | 王啟隆

出品 | AI 科技大本營（ID：rgznai100）

一分鐘速覽新聞點！

Apple Vision Pro 登陸中國大陸，6 月 28 日正式上線，29999 起售

OpenAI 與蘋果公司宣布重要合作

OpenAI 高層擴容：迎來新 CFO 與 CPO

蘋果釋出「Apple 基礎模型」引領機器學習新突破

Google 釋出 Tx-LLM，改變生物醫藥領域的遊戲規則

上交大開源 TurboSparse 以最少啟用參數實作 LLM SOTA 效能

微軟 VALL-E 2 革新語音合成技術，首達人類水平零樣本 TTS 表現

全球 AI 要聞

Apple Vision Pro 登陸中國大陸，6 月 28 日正式上線，29999 起售

在 11 淩晨結束的 WWDC 2024 全球開發者大會主題演講上，蘋果公司執行長提姆·庫克宣布了萬眾期待的訊息：革命性空間計算裝置 Apple Vision Pro 將於 6 月 28 日在中國大陸正式上市，標誌著蘋果在混合現實領域的最新力作即將與廣大中國消費者見面。

Apple Vision Pro，這款被業界譽為開啟空間計算新紀元的產品，憑借其無縫融合數位內容與現實世界的非凡能力，自首次亮相以來便備受矚目。據蘋果中國官網顯示，國行版本的起售價為 29999 元，提供 256GB、512GB 以及 1TB 三種儲存容量選項，滿足不同使用者的需求。

OpenAI 與蘋果公司宣布重要合作

科技巨擘 OpenAI 和蘋果公司今日宣布了一項重大合作計劃，旨在共同革新人工智慧領域。此次聯盟匯集了 OpenAI 在尖端人工智慧研究方面的深厚實力以及蘋果公司在消費技術與硬體創新上的廣泛專長。

合作重點在於將前沿的人工智慧技術（如 ChatGPT）融入蘋果公司的未來產品線中，全面提升跨裝置的使用者體驗。預期這一結合將推動開發出更加直觀、高效及個人化的功能，進一步鞏固蘋果作為人工智慧與消費電子融合領域先驅的地位。

OpenAI 高層擴容：迎來新 CFO 與 CPO

人工智慧研究實驗室 OpenAI 近日宣布重要人事任命，正式迎來兩位關鍵高管的加入，進一步壯大其領導團隊。該公司欣然宣布聘請經驗豐富的財務專家 Sarah Friar 擔任財務長（CFO），以及產品開發領域的領軍人物 Kevin Weil 出任首席產品官（CPO）。這兩位新成員將分別負責 OpenAI 的財務戰略規劃與產品創新方向，推動公司在人工智慧技術的探索與套用上達到新高度。

蘋果釋出「Apple 基礎模型」引領機器學習新突破

WWDC 首日結束後，蘋果公司宣布推出「Apple Foundation Models」（Apple 基礎模型），這是一系列高級機器學習系統，旨在提升其產品生態中的智慧與功能。這些基礎模型標誌著蘋果公司在將尖端 AI 技術融入日常使用者體驗方面的持續承諾邁出了重要一步。

基於深入研究並利用蘋果龐大的數據資源，這些基礎模型旨在理解上下文、生成內容以及促進使用者與其裝置間更為自然的互動。透過增強的語言處理、影像辨識和預測分析能力，這些模型旨在使蘋果產品更加直觀、個人化，並能主動滿足使用者需求。

蘋果的端側模型大小為 3B，在 iPhone 上延遲為 6 毫秒，每秒可以輸出 30 個 Token 。使用 AXLearn 框架進行模型訓練，並采用了多種並列化技術來提高訓練效率。透過使用 Lora 來微調其基礎模型，使其能夠適應使用者的日常活動，並且能夠即時調整以適應特定任務。

效能評測圖如下：

蘋果強調「私密」依然是此項開發的核心，保證所有數據處理遵循公司嚴格的私密標準。Apple Foundation Models 的推出表明，蘋果將繼續推進創造更智慧、更安全的 AI 驅動體驗，同時不損害使用者私密。

蘋果在公告中還強調了未來的研發合作計劃，以及這些模型在醫療健康、教育和環境保護等領域的潛在創新套用，進一步展示了這些進展可能帶來的廣泛影響。

Google 釋出 Tx-LLM，改變生物醫藥領域的遊戲規則

Google 近日推出了基於 PaLM-2 的人工智慧 Tx-LLM，該模型經過微調，適用於多種治療用途。Google 研究部門與 DeepMind 合作開發的這款大型語言模型，在 66 項藥物發現任務中表現出色，其中 22 項超越當前最先進水平，另外 43 項成績斐然。尤其值得註意的是，它在整合分子結構與文本數據方面的卓越能力，展現了高級的跨任務學習能力。研究人員將其強大的效能歸功於獨特的訓練數據集——包含 709 個集合——以及能夠靈活處理化學實體、生物實體和自由文本的設計。Tx-LLM 作為橫跨制藥研發管道端到端解決方案的潛力，標誌著人工智慧驅動的醫療健康創新領域的一個變革性轉變。

論文： https://arxiv.org/abs/2406.06316

上交大開源 TurboSparse 以最少啟用參數實作 LLM SOTA 效能

一項名為 Turbo Sparse 的研究論文揭示了如何在不犧牲效能的前提下，顯著加速大型語言模型（LLMs）的推理過程，這一成果有望開啟 AI 效率新時代。論文由上海交通大學並列與分布式系統研究所、清華大學電腦科學與技術系及上海人工智慧實驗室的學者合作完成。

核心貢獻在於提出了一種創新的啟用函式——dReLU，專門設計來增強 LLMs 的啟用稀疏性，解決了 SwiGLU 和 GeGLU 等常用啟用函式稀疏性有限的問題。研究團隊不僅透過 dReLU 實作了高度稀疏化，還引入了高品質訓練數據混合比例策略，確保了有效稀疏化的同時避免了因數據不足導致的效能下降。

此外，該研究還利用混合專家模型（MoE）中前饋網路（FFN）專家內部的稀疏啟用模式，進一步提升了效率。套用此神經元稀疏化方法於 Mistral 和 Mixtral 模型上，使得每次推理僅需啟用 25 億和 43 億參數，同時模型效能更上一層樓，實驗證明這帶來了 2 至 5 倍的解碼速度提升。尤其值得一提的是，TurboSparse-Mixtral-47B 在行動裝置上的推理速度達到了驚人的每秒 11 個詞元。

論文： https://arxiv.org/abs/2406.05955

模型開源連結： https://huggingface.co/PowerInfer

微軟 VALL-E 2 革新語音合成技術，首達人類水平零樣本 TTS 表現

微軟最新釋出的神經編解碼語言模型——VALL-E 2，在零樣本文本轉語音（TTS）領域取得裏程碑式突破，首次實作與人類聲音的對等品質。作為 VALL-E 的升級版，VALL-E 2 透過兩大技術創新樹立新標桿：「重復感知采樣」技術最佳化了核采樣過程，透過考慮解碼歷史中的令牌重復，不僅穩定了解碼過程，還成功避免了無限迴圈問題；「分組編碼建模」策略則透過將編解碼代分碼組，有效縮短序列長度，這一策略不僅提升了推理速度，還有效應對了長序列建模的挑戰。

實驗結果顯示，在 LibriSpeech 和 VCTK 數據集上，VALL-E 2 在語音魯棒性、自然度及發音人相似度方面超越了以往系統，成為第一個在這類基準測試中達到人類水平的 TTS 系統。尤為值得一提的是，即便面對復雜句式或重復短語等傳統難題，VALL-E 2 仍能持續生成高品質語音，展現了其技術的先進性和實用性。這一技術進步有望為幫助失語癥患者或漸凍癥患者生成個人化語音等重要套用領域帶來深遠影響。

論文： https://arxiv.org/abs/2406.05370

開發者正在迎接新一輪的技術浪潮變革。由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的 2024 年度「全球軟體研發技術大會」秉承幹貨實料（案例）的內容原則，將於 7 月 4 日-5 日在北京正式舉辦。大會共設定了 12 個大會主題：大模型智慧套用開發、軟體開發智慧化、AI 與 ML 智慧運維、雲原生架構……詳情👉： http://sdcon.com.cn/

國行 Vision Pro 來了；庫克阿特曼甜蜜「聯姻」 | AI 頭條