2024-05-06資訊

整理 | 王啟隆

出品 | AI 科技大本營（ID：rgznai100）

一分鐘速覽新聞點！

庫克：蘋果在 AI 領域不僅要超越競爭對手，還要樹立行業新標桿

Momenta 沖刺 IPO，自動駕駛技術商用化再提速

Sora 最新技術曝光，可替換或修改視訊中的單個指定元素

AI 驅動音訊書突破 4 萬大關

AI 競賽白熱化：基礎模型開發成本逼近十億門檻

巴菲特預警：AI 詐騙或成新興高增長風險領域

NVIDIA AI 研究員釋出 VILA：革新視覺語言模型，實作跨影像推理與視訊理解

全球 AI 要聞

庫克：蘋果在 AI 領域不僅要超越競爭對手，還要樹立行業新標桿

在全球科技巨頭競爭日益激烈的今天，蘋果公司 CEO 提姆·庫克於第二季度財報電話會議中明確表達了蘋果在人工智慧領域的雄心壯誌——不僅要超越競爭對手，還要樹立行業新標桿。庫克強調，蘋果在 AI 領域的獨特競爭力植根於其對硬體效能的極致追求和對使用者私密權益的堅決捍衛，這兩大核心優勢構成了蘋果 AI 戰略的堅固基石。

據庫克透露，蘋果正加大對生成式人工智慧技術的投資力度，暗示未來將有創新成果面世，引發業界高度期待。有可靠訊息指出，蘋果可能借 6 月即將召開的全球開發者大會（WWDC）舞台，首次展示其在 AI 技術，尤其是自然語言處理方面的最新突破。傳言中的 iOS 18 作業系統將整合自研大型語言模型 Ajax，旨在顯著增強 Siri 的智慧互動能力，並深度最佳化一系列原生套用體驗。

尤為值得關註的是，蘋果長期致力於離線響應生成技術的研發，目標是在無網路環境下也能使裝置上的 AI 系統生成文本反饋，這一技術進步有望引領移動 AI 套用進入新紀元。盡管 Ajax 能在本地生成基礎文本，復雜任務處理仍需借助雲端，但蘋果正積極探索裝置端文本生成的全面解決方案，力圖在保障使用者私密的同時，實作 AI 功能的無縫銜接。

Momenta 沖刺 IPO，自動駕駛技術商用化再提速

北京初速度科技有限公司（Momenta）近期被知情人士曝光已悄然推進其在美國的首次公開募股（IPO）籌備工作。據悉，該公司正與 CICC、高盛、瑞銀緊密協作，計劃年內完成上市，預計募得資金 2 - 3 億美元，為自動駕駛解決方案的全球擴張蓄力。

Momenta 以「數據驅動」的技術飛輪為核心，融合量產與全無人駕駛雙線戰略，展示出在自動駕駛技術深度與廣度上的非凡掌控力。其創新成果不僅贏得了行業內外的高度評價，還吸引了上汽、雲鋒基金、奔馳、豐田、博世等眾多國際巨頭的戰略投資，彰顯其在智慧出行領域的技術領導力。

Sora 最新技術曝光，可替換或修改視訊中的單個指定元素

據 X 上最新透露的內部演示視訊顯示，Sora 的技術能夠對已生成的視訊內容進行微控編輯，實作僅替換或修改視訊中的單個指定元素，而保持其余場景風格和內容的一致性。視訊中，Sora 能夠靈活地在不同的視訊場景中替換焦點物件，如視訊中的人物，同時確保背景環境雖有細微差異——例如街道上的水漬形態變化、墻面上塗鴉的隨機調整——整體視覺效果仍然和諧統一。這一突破性進展不僅體現在對單一元素的精準操控上，更在於其背後強大的演算法支撐，能夠智慧生成與原視訊風格相似但非完全一致的背景渲染，確保內容的新穎性和真實感。

AI 驅動音訊書突破 4 萬大關

Audible 平台宣布其 AI 配音的有聲書數量已超過 4 萬冊，這標誌著人工智慧技術在出版行業的廣泛套用達到了新的高度。此次擴張不僅為作者開辟了增加收入的新渠道，同時也引發了關於技術替代與使用者體驗的深入討論。

隨著 Spotify 等競爭對手的不斷崛起，Audible 透過推出「Audible Standard」訂閱計劃積極應對，該計劃利用 AI 配音書籍，為澳洲使用者提供價格更為親民的選擇，其費用較 Premium Plus 套餐降低近半。此舉緊跟亞馬遜 Kindle Direct Publishing(KDP) 的腳步，後者此前在美國推出了一項 Beta 工具，允許自出版作者快速將電子書轉換為 AI 朗讀的有聲書，顯著縮短制作周期並降低成本。

AI 競賽白熱化：基礎模型開發成本逼近十億門檻

近日，大型語言模型（LLM）的訓練成本隨著效能突破人類水平而激增，預示行業格局劇變。科技巨頭與合作夥伴正投入巨資，如 Anthropic 的旗艦模型 Claude 3，其訓練成本已超 1 億美元，後續模型成本或將觸及 10 億美元。與半導體產業類似，高昂費用或將導致 AI 創新僅限於極少數大企業，威脅行業多樣性與創新能力。專家呼籲支持開源計畫和協作模式，以維持 AI 領域的廣泛參與和均衡發展。

巴菲特預警：AI 詐騙或成新興高增長風險領域

在伯克希爾·哈撒韋年度股東大會上，投資大師沃倫·巴菲特發出警告，認為人工智慧（AI）技術在促進正面變革的同時，也可能催生史上最大規模的詐騙「增長行業」。巴菲特強調，AI 技術透過生成高度逼真的誤導性內容，為不法分子提供了前所未有的欺詐手段，尤其是在語音複制和深度偽造領域，這些技術常被用於冒充親友身份，騙取錢財或個人敏感資訊。

盡管承認 AI 擁有巨大的正面潛力，巴菲特指出，作為一個對此技術並不精通的人，他深感 AI 在促進社會福祉的同時，也孕育著巨大的危害風險，其長遠影響難以預測。巴菲特將 AI 的潛在危險比作 20 世紀核武器的「潘朵拉魔盒」，一旦開啟，其後果難以預料且控制。

在華爾街，AI 已成為熱議話題，投資者寄望於其能推動未來利潤增長，相關股票如輝達和 Meta Platforms 在此期間分別實作了 507% 和 275% 的驚人漲幅。盡管市場熱情高漲，巴菲特卻坦承自己並不熟悉 AI 領域，但他認為 AI 的發展路徑與核武器相似，都是在釋放出強大能力的同時，也帶來了深刻的不安。

NVIDIA AI 研究員釋出 VILA：革新視覺語言模型，實作跨影像推理與視訊理解

NVIDIA 與 MIT 的研究團隊攜手推出了一項名為 VILA（Vision Language Model）的開創性技術，該模型能夠在多個影像間進行推理，結合上下文學習，並理解視訊內容。VILA 框架透過創新的嵌入對齊策略與動態神經網路設計，在 Coyo-700m 等大規模數據集上的預訓練中，顯著提升了視覺與文本的協同學習能力。

研究采用了 Visual Instruction Tuning 方法，對模型進行基於指令的微調，不僅在 OKVQA 和 TextVQA 基準測試中取得了 70.7% 和 78.2% 的準確率，大幅超越現有標準，還成功減少了約 90% 的「災難性遺忘」現象，這意味著 VILA 在學習新任務的同時，能有效保留先前知識。

VILA 的成功標誌著視覺語言模型領域的一大進步，為開發更高效、適應力更強的 AI 系統提供了新的解決方案，有望在醫療、金融分析及自動駕駛等多個領域實作廣泛套用。

GitHub 連結： https://github.com/Efficient-Large-Model/VILA

論文連結： https://arxiv.org/abs/2312.07533

庫克：蘋果要當 AI 龍頭；Sora 可以在視訊中只修改一個元素；巴菲特警告 AI 詐騙風險 | AI 頭條

庫克：蘋果在 AI 領域不僅要超越競爭對手，還要樹立行業新標桿