又一個大模型開源了！這次是騰訊，文生圖免費商用

2024-05-18辦公

中文 AI 社群迎來了一個好訊息：與 Sora 同架構的開源文生圖大模型來了！

前幾天剛給大家分享了阿裏開源的大模型，👇

5 月 14 日，騰訊宣布旗下混元文生圖大模型全面升級並全面開源，目前已在 Hugging Face 平台及 GitHub 上釋出，包含模型權重、推理程式碼、模型演算法等完整模型，可供企業與個人開發者免費商用。

據了解，這是 業內第一個中文原生的 DiT 架構文生圖開源模型 ，支持中英文雙語輸入及理解，參數量 15 億。

獲取騰訊混元大模型的使用地址，請在下列公眾號的後台回復： 騰訊大模型 ，即可24小時自動獲取官網鏈接~👇

升級後的混元文生圖大模型采用了與 S ora 一致的 DiT 架構，即 全新的 Hunyuan-DiT 架構 ，不僅可以支持文生圖，也可以作為視訊等多模態視覺生成的基礎。

為了全面比較 Hunyuan-DiT 與其他文生圖模型的生成能力，騰訊混元團隊構建 4 個維度的測試集，邀請超過 50 名專業評估人員進行評估，包括文本影像一致性、排除 AI 偽影、主題解析度、審美。

從下表結果可以看到，采用 Hunyuan-DiT 架構的騰訊混元文生圖模型效果遠超開源的 Stable Diffusion 模型，是 目前效果最好的開源文生圖模型 ，整體能力屬於國際領先水平。

與其他 SOTA 模型的比較。

與這些 SOTA 模型的定性比較結果如下圖所示。

全新 DiT 架構

騰訊混元文生圖要做開源模型 No.1

大模型的優異表現，離不開領先的技術架構。

升級後的騰訊混元文生圖大模型采用了全新的 DiT 架構（DiT 即 Diffusion With Transformer），這是 OpenAI Sora 和 Stable Diffusion 3 的同款架構和關鍵技術，是一種基於 Transformer 架構的擴散模型。

過去，視覺生成擴散模型主要基於 U-Net 架構，但隨著參數量增加，基於 Transformer 架構的擴散模型展現了更好的擴充套件性，有助於進一步提升模型生成品質及效率。Sora 很好地說明了這一點。

騰訊混元是業界最早探索並套用大語言模型結合 DiT 結構的文生圖模型之一。從 2023 年 7 月起，騰訊混元文生圖團隊就明確了基於 DiT 架構的模型方向，並啟動了新一代模型研發。今年初，混元文生圖大模型已全面升級為 DiT 架構。

Hunyuan-DiT 的模型結構如下圖 7 所示，采用了創新的網路架構，結合了雙語 CLIP 和多語言 T5 編碼器，透過精心設計的數據管道進行訓練和最佳化，支持多輪對話，能夠根據上下文生成並完善影像。

在 DiT 架構之上，騰訊混元團隊支持了中英雙語文本提示生成影像，並在演算法層面最佳化模型的 長文本理解能力 ，能夠支持最多 256 字元的內容輸入，達到行業領先水平。

此外，混元文生圖大模型在演算法層面創新實作了 多輪生圖和對話能力 ，可實作在一張初始生成圖片的基礎上，透過自然語言描述進行調整，從而達到更滿意的效果。

更多多輪對話生成範例如下圖所示。

中文原生 也是騰訊混元文生圖大模型的一大亮點。此前，像 Stable Diffusion 等主流開源模型核心數據集以英文為主，對中國的語言、美食、文化、習俗都理解不夠。

作為第一個中文原生的 DiT 模型，混元文生圖具備了中英文雙語理解及生成能力，在古詩詞、俚語、傳統建築、中華美食等中國元素的生成上表現出色。我們可以看以下一些生成範例。

騰訊混元文生圖還更擅長 細粒度文本提示生成 。

評測結果顯示，新一代騰訊混元文生圖大模型視覺生成整體效果，相比前代提升超過了 20%，不僅在語意理解、畫面質感與真實性方面全面提升，而且在多輪對話、內送流量備援容錯機制體、中國元素、真實人像生成等場景下效果提升顯著。

這一次

騰訊混元選擇全面開源文生圖模型

騰訊混元文生圖能力，已經廣泛被用於素材創作、商品合成、遊戲出圖等多項業務及場景中。今年初，騰訊廣告基於騰訊混元大模型，釋出了一站式 AI 廣告創意平台騰訊廣告妙思，可為廣告主提供文生圖、圖生圖、商品背景合成等多場景創意工具，有效提高了廣告生產及投放效率。

騰訊混元文生圖大模型的開源， 填補了中文原生 DiT 文生圖架構的缺失 ，有助於更多的開發者和創作者參與進來，一起探索、共創基於 DiT 架構的視覺生成生態，更好地去驗證、挖掘這個技術架構的潛力。

騰訊文生圖負責人蘆清林表示：「騰訊混元文生圖的研發思路就是實用，堅持從實踐中來，到實踐中去。此次把最新一代模型完整開源出來，是希望與行業共享騰訊在文生圖領域的實踐經驗和研究成果，豐富中文文生圖開源生態，共建下一代視覺生成開源生態，推動大模型行業加速發展。」

基於騰訊開源的文生圖模型，開發者及企業無需從頭訓練，即可以直接用於推理，並可基於混元文生圖打造專屬的 AI 繪畫套用及服務，能夠節約大量人力及算力。透明公開的演算法，也讓模型的安全性和可靠性得到保障。

此外，基於開放、前沿的混元文生圖基礎模型，也有利於在以 Stable Diffusion 等為主的英文開源社群之外，豐富以中文為主的文生圖開源生態，形成更多樣原生外掛程式，推動中文文生圖技術研發和套用。

-END-