當前位置: 妍妍網 > 碼農

Nvidia開源一系列超強視覺語音模型,中國人已經在全球前沿AI開發占據半壁江山。

2025-01-10碼農

輝達太猛了,總是搞出一些比較牛的模型。

不過它開源的目的可不是把做模型的廠家去幹掉。

一方面是秀肌肉,一方面是給AI發展提供一些基礎和方向。

當然,最重要的是,你懂得。

你雖然免費用了輝達開源的模型,但是你伺服器得用它的吧,錢不就乖乖付了嗎。

今天給大家推薦的是輝達開源的一系列視覺語言模型NVILA,模型是真的強。

套用方面其實也很多,現在AI套用其實就是要在這種基礎模型的能力上做一些場景化的功能。

各種的自動化視覺檢測、智慧園區、自媒體等都可能會用得到。

這論文作者,一眼望去,幾乎全是中國人。該說不說,中國人在AI方向的研發是真猛啊,各種牛的計畫裏,都是很多中國人的影子。

卷吧,一起卷。

掃碼加入AI交流群

獲得更多技術支持和交流

(請註明自己的職業)

計畫簡介

NVILA是由NVIDIA等機構的研究人員共同開發的 一系列開源視覺語言模型 。最佳化了模型的效率和準確性,透過「先擴充套件後壓縮」的策略,NVILA能夠在處理高分辨率影像和長視訊時保持高效。從訓練、微調到部署階段,顯著降低了成本和資源消耗。NVILA在多個影像和視訊基準測試中展現了超強的準確性,同時在訓練成本、微調記憶體使用、預填充延遲和解碼延遲等方面實作了顯著的效能提升。NVILA還拓展了新的套用能力,如時間定位、機器人導航和醫學成像等。

DEMO

1、視訊理解

提示詞: 詳細闡述視訊中的視覺元素和敘事元素。

回答: 視訊展示了一個人的雙手在白色台面上操作的畫面。此人正在折疊一塊有著藍白相間方格圖案的布料,正將這塊布料折疊成更小、更緊湊的形狀。此人的指甲塗成了紅色,並且穿著一件黑紅相間的衣服。台面上還放著一把尺子和一支鉛筆,這表明在操作過程中涉及測量以及對精準度的要求。

2、情境學習

使用者: 這幅圖中有什麽不尋常的地方?


助手: 在圖中,有幾只鹿正在橫穿馬路,而此時汽車正從後面駛來。這個場景不同尋常,因為鹿在離行駛車輛如此近的地方橫穿馬路並不常見。通常情況下,鹿的穿行區域是在指定地點或者野生動物通道那裏,這些地方旨在將鹿與車輛發生事故的風險降至最低。在這幅圖呈現的場景裏,鹿似乎是在沒有任何此類保護或引導的情況下橫穿馬路的,這增加了與後面駛來的車輛發生事故或碰撞的風險。

使用者: 司機應該對這些動物按喇叭嗎?為什麽?


助手: 一般來說,當動物正在橫穿馬路時,即便它們是鹿,也不建議司機按喇叭。按喇叭可能會驚嚇到動物,使它們驚慌失措,這可能會給動物和相關司機都帶來危險情況。相反,司機應該保持耐心,等待動物安全穿過馬路後再繼續前行。如有必要,他們可以減速或者停車,以確保動物有足夠的時間離開馬路,然後再繼續自己的行程。

3、多影像推理

問:照片 1,上午 10 點 30 分:<圖 1>

照片 2,中午 12 點 45 分:< 圖 2>

照片 3,下午 3 點 45 分:< 圖 3> 我午餐吃了什麽,以及是幾點吃的?


回答:我在中午 12 點 45 分吃了一個三明治作為午餐。

技術特點

模型架構

  • 「Scale-then-Compress」策略: 先提升視覺輸入的分辨率保留細節,再壓縮視覺令牌提高效率,使NVILA能高效處理高分辨率影像和長視訊。

  • Dynamic-S2技術: 自適應處理不同長寬比影像,避免失真,提升文本密集型任務準確性。

  • 時空令牌壓縮: 空間上透過池化和額外預訓練減少令牌損失,時間上用時間平均法壓縮視訊幀,保留重要資訊。

  • 全生命周期效率最佳化

  • 訓練階段:

    1.數據集修剪:DeltaLoss方法篩選有用數據,減少訓練量,提速2倍且保持效能。

    2.FP8混合精度訓練:利用FP8提升吞吐量,不啟用GC時提速2倍,啟用時也有1.2倍提升。

  • 微調階段: ViT和LLM不同學習率,LayerNorm微調高效節能,24GB記憶體下快速適配下遊任務。

  • 部署階段: 推理引擎量化技術,預填充階段W8A8量化視覺塔降延遲,解碼階段W4A16量化LLM主幹提吞吐量。

  • 效能與效率平衡

  • 準確性: 在多基準測試中超越開源和專有模型,如AI2D基準測試8B模型準確率83.0%,Video-MME僅8B參數效能比肩GPT-4o mini。

  • 效率: 訓練成本降4.5倍,微調記憶體用降3.4倍,預填充延遲降1.6-2.2倍,解碼延遲降1.2-2.8倍。

  • 新能力拓展

  • 時間定位: ActivityNet測試中大幅超基線模型,展現視訊時間定位能力。

  • 機器人導航: 即時部署,多幀輸入處理能力強,單筆記本GPU上1Hz執行,助力機器人導航。

  • 醫學多模態: NVILA-M3整合專家模型,醫學任務效能顯著提升,超現有SOTA模型9%,推動醫療領域發展。

  • 計畫連結

    https://github.com/NVlabs/VILA

    試用連結

    https://vila.mit.edu/

    論文連結

    https://arxiv.org/abs/2412.04468

    關註「 開源AI計畫落地 」公眾號

    與AI時代更靠近一點

    關註「 AGI光年 」公眾號

    獲取每日最新資訊

    關註「 向量光年 」公眾號

    加速全行業向AI轉變