當前位置: 妍妍網 > 資訊

Stable Diffusion 3釋出API;微軟新計畫實作阿裏EMO同款功能;波斯頓動力人形機器人電動化升級 | AI頭條

2024-04-18資訊

整理 | 王啟隆

出品 | AI 科技大本營(ID:rgznai100)

一分鐘速覽新聞點!

  • Stable Diffusion 3 釋出 API

  • 微軟亞洲研究院推出 VASA-1:AI 驅動的語音到逼真面部動畫轉換技術

  • Stability AI 進軍音樂生成,推出 DiT 架構驅動的 Stability Audio

  • AI2 升級開放原始碼 OLMo 模型,引入多元化數據集及雙階段學習課程

  • 新華智雲升級「新華妙筆」AI 平台,智慧化變革公文寫作

  • 波斯頓動力 Atlas 人形機器人電動化升級,告別液壓時代

  • Mentee Robotics 推出「AI 優先」人形機器人 Menteebot 挑戰市場

  • 全球 AI 要聞

    Stable Diffusion 3 釋出 API

    Stability AI 近日宣布其 Stable Diffusion 3 和 Stable Diffusion 3 Turbo 現已在 Stability AI 開發者平台 API 上提供。此模型在最新研究中展現出與 DALL-E 3 和 Midjourney v6 等頂級文本到影像生成系統相當或更優的表現,尤其在版式設計和遵循提示方面,經人類偏好評估證實。新推出的 Multimodal Diffusion Transformer(MMDiT)架構采用獨立的影像和語言權重集,增強了文本理解和拼寫能力。

    API 文件: https://platform.stability.ai/docs/api-reference#tag/Generate/paths/~1v2beta~1stable-image~1generate~1sd3/post

    微軟亞洲研究院推出 VASA-1:AI 驅動的語音到逼真面部動畫轉換技術

    微軟亞洲研究院開發的 VASA-1 計畫創新了人工智慧技術,能將單張靜態影像和語音音訊轉化為高精度、富有表現力的對話面部動畫。該技術具備精確唇音同步、復雜面部表情復現及自然頭部動作模擬能力,借助 NVIDIA RTX4090 GPU 實作即時 40-45 fps 的 512×512 分辨率視訊生成,延遲僅 170 毫秒。其核心技術涵蓋了面部潛在空間建模、3D 輔助表示、音訊條件生成控制等,演示案例中的大部份身份形象使用 styleGAN2 或 DALL-E-3 生成。微軟已公開該計畫演示及相關學術論文,以供研究者和開發者深入研究和套用。

    計畫地址: https://www.microsoft.com/en-us/research/project/vasa-1/

    論文連結: https://arxiv.org/abs/2404.10667

    Stability AI 進軍音樂生成,推出 DiT 架構驅動的 Stability Audio

    Stability AI 近日釋出了一份關於其最新技術突破——Stability Audio 的研究論文。該技術基於 Diffusion-Transformer(DiT)架構,成功實作了長達 4 分 45 秒連續、高品質音樂作品的自動化創作。研究團隊透過在長時間序列數據上深度訓練生成模型,使其能夠捕捉和理解音樂的復雜結構和風格特征。Stability Audio 的核心在於一種高度緊湊的連續潛在表示方法,它能夠在 21.5Hz 的潛在頻率下運作,有效地捕捉音訊訊號的時間動態變化。

    論文連結: https://arxiv.org/abs/2404.10301

    AI2 升級開放原始碼 OLMo 模型,引入多元化數據集及雙階段學習課程

    美國艾倫人工智慧研究所(AI2)於本周三宣布對其 70 億參數的 Open Language Model( OLMo ) 1.7-7B 進行重大更新。新版 OLMo 采用了更大規模且來源多樣化的 Dolma 1.7 數據集,並最佳化了教育式訓練流程。 OLMo 1.7-7B 現支持更長上下文長度,從 2,048 提升至 4,096 個 tokens,並透過改進的訓練程式和架構增強效能。

    開源連結: https://huggingface.co/allenai/OLMo-1.7-7B

    新華智雲升級「新華妙筆」AI 平台,智慧化變革公文寫作

    新華社與博特智慧攜手研發的「新華妙筆」AI 公文寫作平台,包括自然語言處理(NLP)、知識圖譜構建與分析,實作政務公文全流程智慧化輔助。該平台整合了從素材尋找、結構規劃、內容自動生成至稽核校對的一站式服務。近期新華智雲進一步最佳化其核心AI模型,使得「妙筆」能在短時間內輸出符合規範、內容精準的高品質公文,並且具備一鍵潤色、摘要提取、標題生成等功能,有力推動政務辦公的數位化轉型與智慧化升級。

    波斯頓動力 Atlas 人形機器人電動化升級,告別液壓時代

    繼昨日宣布退休液壓版 Atlas 機器人後,Boston Dynamics(波斯頓動力)透露其人形機器人 Atlas 已全面電動化。在展示視訊中,Atlas 憑借電動馬達驅動,實作了自然且流暢的動作轉換,如腿部彎曲旋轉以改變體位,以及頭部與軀幹的 180 度同步旋轉。盡管行走步伐稍顯急促,但明顯比近年來推出的許多商業人形機器人更為連貫,甚至帶有些許機器狗特有的大膽自信步伐。

    Mentee Robotics 推出「AI 優先」人形機器人 Menteebot 挑戰市場

    初創公司 Mentee Robotics 近日正式揭曉其潛心研發兩年的人形機器人原型——Menteebot。該機器人搭 載了包括 OpenAI ChatGPT 所使用的基於 Transformer 的大規模語言模型(LLMs)在內的先進 AI 技術,旨在服務於家庭及倉庫套用場景。 Mentee Robotics 強調,Menteebot 是一款從設計之初就秉持「AI 優先」理念的產品,能夠端到端完成復雜任務。相較於市場上多數產品逐漸融入 AI 的做法,Menteebot 自始至終圍繞 AI 打造。

    4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨詢和教育平台 Boolan 聯合主辦的「 全球機器學習技術大會 」將在上海環球港凱悅酒店舉行,特邀近 50 位技術領袖和行業套用專家,與 1000+ 來自電商、金融、汽車、智慧制造、通訊、工業互聯網、醫療、教育等眾多行業的精英參會聽眾,共同探討人工智慧領域的前沿發展和行業最佳實踐。 歡迎所有開發者朋友存取官網 http://ml-summit.org、點選「閱讀原文」或掃碼進一步了解詳情。