Stable Diffusion 3 釋出 API

微軟亞洲研究院推出 VASA-1：AI 驅動的語音到逼真面部動畫轉換技術

Stability AI 進軍音樂生成，推出 DiT 架構驅動的 Stability Audio

AI2 升級開放原始碼 OLMo 模型，引入多元化數據集及雙階段學習課程

新華智雲升級「新華妙筆」AI 平台，智慧化變革公文寫作

波斯頓動力 Atlas 人形機器人電動化升級，告別液壓時代

Mentee Robotics 推出「AI 優先」人形機器人 Menteebot 挑戰市場

全球 AI 要聞

Stable Diffusion 3 釋出 API

Stability AI 近日宣布其 Stable Diffusion 3 和 Stable Diffusion 3 Turbo 現已在 Stability AI 開發者平台 API 上提供。此模型在最新研究中展現出與 DALL-E 3 和 Midjourney v6 等頂級文本到影像生成系統相當或更優的表現，尤其在版式設計和遵循提示方面，經人類偏好評估證實。新推出的 Multimodal Diffusion Transformer（MMDiT）架構采用獨立的影像和語言權重集，增強了文本理解和拼寫能力。

API 文件： https://platform.stability.ai/docs/api-reference#tag/Generate/paths/~1v2beta~1stable-image~1generate~1sd3/post

微軟亞洲研究院推出 VASA-1：AI 驅動的語音到逼真面部動畫轉換技術

微軟亞洲研究院開發的 VASA-1 計畫創新了人工智慧技術，能將單張靜態影像和語音音訊轉化為高精度、富有表現力的對話面部動畫。該技術具備精確唇音同步、復雜面部表情復現及自然頭部動作模擬能力，借助 NVIDIA RTX4090 GPU 實作即時 40-45 fps 的 512×512 分辨率視訊生成，延遲僅 170 毫秒。其核心技術涵蓋了面部潛在空間建模、3D 輔助表示、音訊條件生成控制等，演示案例中的大部份身份形象使用 styleGAN2 或 DALL-E-3 生成。微軟已公開該計畫演示及相關學術論文，以供研究者和開發者深入研究和套用。

計畫地址： https://www.microsoft.com/en-us/research/project/vasa-1/

論文連結： https://arxiv.org/abs/2404.10667

Stability AI 進軍音樂生成，推出 DiT 架構驅動的 Stability Audio

Stability AI 近日釋出了一份關於其最新技術突破——Stability Audio 的研究論文。該技術基於 Diffusion-Transformer（DiT）架構，成功實作了長達 4 分 45 秒連續、高品質音樂作品的自動化創作。研究團隊透過在長時間序列數據上深度訓練生成模型，使其能夠捕捉和理解音樂的復雜結構和風格特征。Stability Audio 的核心在於一種高度緊湊的連續潛在表示方法，它能夠在 21.5Hz 的潛在頻率下運作，有效地捕捉音訊訊號的時間動態變化。

論文連結： https://arxiv.org/abs/2404.10301

AI2 升級開放原始碼 OLMo 模型，引入多元化數據集及雙階段學習課程

美國艾倫人工智慧研究所(AI2)於本周三宣布對其 70 億參數的 Open Language Model( OLMo ) 1.7-7B 進行重大更新。新版 OLMo 采用了更大規模且來源多樣化的 Dolma 1.7 數據集，並最佳化了教育式訓練流程。 OLMo 1.7-7B 現支持更長上下文長度，從 2,048 提升至 4,096 個 tokens，並透過改進的訓練程式和架構增強效能。

開源連結： https://huggingface.co/allenai/OLMo-1.7-7B

新華智雲升級「新華妙筆」AI 平台，智慧化變革公文寫作

新華社與博特智慧攜手研發的「新華妙筆」AI 公文寫作平台，包括自然語言處理（NLP）、知識圖譜構建與分析，實作政務公文全流程智慧化輔助。該平台整合了從素材尋找、結構規劃、內容自動生成至稽核校對的一站式服務。近期新華智雲進一步最佳化其核心AI模型，使得「妙筆」能在短時間內輸出符合規範、內容精準的高品質公文，並且具備一鍵潤色、摘要提取、標題生成等功能，有力推動政務辦公的數位化轉型與智慧化升級。

波斯頓動力 Atlas 人形機器人電動化升級，告別液壓時代

繼昨日宣布退休液壓版 Atlas 機器人後，Boston Dynamics（波斯頓動力）透露其人形機器人 Atlas 已全面電動化。在展示視訊中，Atlas 憑借電動馬達驅動，實作了自然且流暢的動作轉換，如腿部彎曲旋轉以改變體位，以及頭部與軀幹的 180 度同步旋轉。盡管行走步伐稍顯急促，但明顯比近年來推出的許多商業人形機器人更為連貫，甚至帶有些許機器狗特有的大膽自信步伐。

Mentee Robotics 推出「AI 優先」人形機器人 Menteebot 挑戰市場

初創公司 Mentee Robotics 近日正式揭曉其潛心研發兩年的人形機器人原型——Menteebot。該機器人搭載了包括 OpenAI ChatGPT 所使用的基於 Transformer 的大規模語言模型（LLMs）在內的先進 AI 技術，旨在服務於家庭及倉庫套用場景。 Mentee Robotics 強調，Menteebot 是一款從設計之初就秉持「AI 優先」理念的產品，能夠端到端完成復雜任務。相較於市場上多數產品逐漸融入 AI 的做法，Menteebot 自始至終圍繞 AI 打造。

4 月 25 ~ 26 日，由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的「 全球機器學習技術大會 」將在上海環球港凱悅酒店舉行，特邀近 50 位技術領袖和行業套用專家，與 1000+ 來自電商、金融、汽車、智慧制造、通訊、工業互聯網、醫療、教育等眾多行業的精英參會聽眾，共同探討人工智慧領域的前沿發展和行業最佳實踐。 歡迎所有開發者朋友存取官網 http://ml-summit.org、點選「閱讀原文」或掃碼進一步了解詳情。