當前位置: 妍妍網 > 資訊

馬斯克來華,特斯拉或將合作百度;Meta 最新論文挑戰語言模型安全界限 | AI 頭條

2024-04-29資訊

整理 | 王啟隆

出品 | AI 科技大本營(ID:rgznai100)

一分鐘速覽新聞點!

  • 特斯拉 CEO 馬斯克來華,媒體爆料特斯拉與百度合作

  • MongoDB CEO:向量資料庫都在堆功能,整合至綜合資料庫才是未來趨勢

  • Yoneda Labs 融資 400 萬美元,目標打造化學領域的「OpenAI」

  • 華為 PixArt-Σ 影像模型革新 4K 文本轉影像技術

  • Open Sora 1.1 版本升級:模型架構調整

  • Meta 最新論文研究 AdvPrompter 挑戰語言模型安全界限

  • JPMorgan 推出 FlowMind:基於 LLM 自動工作流生成技術革新

  • 開源 InternVL 1.5 挑戰 GPT-4V 霸主地位

  • 全球 AI 要聞

    特斯拉 CEO 馬斯克來華,媒體爆料特斯拉與百度合作

    4 月 28 日晚間,特斯拉官方微博發文稱:將繼續在中國深耕,在人工智慧、電動車、儲能等領域與行業共同發展,加速清潔能源與自動駕駛技術落地,把美好願景變成現實。當日早些時候,埃隆・馬斯克的私人飛機已抵達北京首都國際機場,有傳言稱馬斯克此行計劃或與自動駕駛軟體 FSD 在中國落地有關。

    隨後據彭博社報道,知情人士稱,特斯拉將與百度合作提供地圖和導航服務,以推動全自動駕駛系統。隨著中國本土電動車制造商的競爭日益激烈,特斯拉計劃加速推出價格更親民的新車型,預計最早將於 2025 年問世。

    MongoDB CEO:向量資料庫都在堆功能,整合至綜合資料庫才是未來趨勢

    M ongoDB 執行長 Dev Ittycheria 在掌舵十周年之際,回顧了公司從 3000 萬美元營收增長至近 20 億美元的歷程。近期,盡管面臨安全挑戰,MongoDB 仍緊跟 AI 革命步伐,於去年 6 月在 Atlas 中整合了向量搜尋功能,預示著對 AI 浪潮的準備。

    向量資料庫作為處理非結構化數據的新星,特別適合大型語言模型和生成式 AI,透過向量嵌入捕捉數據間關系,簡化語意相似數據檢索。MongoDB 整合這一技術,旨在為開發者提供統一平台,減少多資料庫管理的復雜度。Ittycheria 認為當前專一型向量產品更多是功能堆砌,整合至綜合資料庫才是未來趨勢。

    針對 AI 領域過度炒作現象,Ittycheria 持謹慎態度,強調真正價值在於技術套用層的構建。MongoDB 正利用向量搜尋開發「簡單套用」,如基於 Atlas 的 CoachGTM,助力銷售與客服即時獲取產品知識。

    Yoneda Labs 融資 400 萬美元,目標打造化學領域的「OpenAI」

    Yoneda Labs 宣布完成 400 萬美元種子輪融資,由 Khosla Ventures 領投,500 Emerging Europe、468 Capital 及 Y Combinator 參投。資金將用於購置自動化機器人裝置,以在其實驗室中執行化學反應,生成訓練 AI 模型所需的數據。這家初創企業由 Michal Mgeladze-Arciuch、Daniel Vlasits和Jan Oboril 創立,旨在開發化學制造的基礎模型。

    華為 PixArt-Σ 影像模型革新 4K 文本轉影像技術

    華為諾亞方舟實驗室與多所高校合作研發的 PixArt-Σ 影像生成模型近期引發關 註。該模型采用弱到強訓練策略,專為 4K 文本轉影像任務設計,展現卓越效能。值得註意的是,其 XL-1024 版本模型雖僅 2GB 大小,卻能在特定風格下與 SD3 模型相媲美,同時大幅提升了對提示詞的理解與影像生成品質。

    最新進展顯示,PixArt-Σ 已獲得 diffusers 庫的支持,使用者可在 ComfyUI 平台上體驗。計畫團隊於 2024 年 4 月密集釋出了一系列更新,包括模型 checkpoint、LoRA 程式碼、線上演示及與 diffusers 整合的快速體驗流程。此外,計畫開源倉庫簡化了使用流程,便於社群成員貢獻與套用。

    開源連結: https://github.com/PixArt-alpha/PixArt-sigma

    Open Sora 1.1 版本升級:模型架構調整

    近日,Open Sora 計畫迎來重大更新,釋出了 1.1 版本,其中核心亮點是一款全新 700M 參數模型,該模型基於改進的 STDiT 架構,利用 1000 萬數據集訓練而成,相較於前代 400K 數據訓練的模型,在處理能力上有顯著提升。 此次更新極大拓展了模型的創作邊界,支持生成 2 秒至 15 秒、144p 至 720p 分辨率、任意寬高比的文本到影像、文本到視訊乃至影像到視訊內容。

    新版本的關鍵技術創新在於模型架構的調整,包括引入 Rope 嵌入以增強時間註意力、采用 AdaIN 和 LayerNorm 穩定訓練過程,以及實施 QK 歸一化以提升半精度訓練穩定性。此外,模型能夠自動適應不同輸入尺寸,並在訓練中條件化視訊的多種內容,如高度、寬度、幀長及幀率,進一步提升了靈活性和適應力。

    開源連結: https://github.com/hpcaitech/Open-Sora

    技術報告: https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_02.md

    Meta 最新論文研究 AdvPrompter 挑戰語言模型安全界限

    近日,Meta 公布了一項最新研究成果——AdvPrompter,一種快速自適應對抗性提示生成系統,專為大型語言模型(LLMs)設計。 面對 LLMs 存在的安全隱患,如易受特定攻擊誘導產生不當或有害內容,AdvPrompter 提供了一種創新解決方案。

    該技術透過雙階段交替訓練流程,首先利用自身語言模型 AdvPrompter 生成具有欺騙性的高品質對話字尾,隨後將這些對抗性對話用於微調 AdvPrompter 模型本身。此過程無需目標語言模型的梯度資訊,顯著提高了效率。經 AdvPrompter 訓練後,系統能夠迅速創造出既保持原意又隱秘的對話提示,誘導目標模型輸出有害回復,整個過程比傳統最佳化方法快約 800 倍。

    論文連結: https://huggingface.co/papers/2404.16873

    JPMorgan 推出 FlowMind:基於 LLM 自動工作流生成技術革新

    JPMorgan(俗稱摩根大通、小摩)近日釋出 FlowMind,革新工作流自動化技術。該系統借助大型語言模型無反饋生成工作流,效能超 GPT 基線。FlowMind 透過智慧 API 整合,減少數據安全風險,提升使用者互動便捷性,並利用 NCEN-QA 數據集驗證其在金融問答任務的高效性。未來,計畫將探索眾包反饋及持續學習,擴大 API 套用範圍,不斷最佳化效能。

    開源 InternVL 1.5 挑戰 GPT-4V 霸主地位

    近日,開源社群迎來了一顆璀璨新星——InternVL 1.5,作為 GPT-4V 的強勁開源替代,它在技術融合與商用實踐上樹立了新標桿。InternVL 憑借其深度理解影像與文本間復雜關聯的能力,特別是在 OCR 與高精度文件理解上的突出表現,支持4K影像解析,革新了多模態數據處理的邊界。

    這款開源模型不僅限於單一模態,而是能夠無縫融入現有大型語言模型,共同驅動開發高級多模態對話套用,解鎖人機互動新篇章。在一系列核心基準測試中,包括 DocVQA、ChartQA 和 MathVista,InternVL 1.5 展現了卓越效能,不僅比肩 GPT-4V 與 Gemini Pro等頂級營運模式,還在特定場景下實作了超越,彰顯了其強大的技術創新力與實際套用潛力,為AI領域帶來了激動人心的新選擇。

    開源連結: https://github.com/OpenGVLab/InternVL