騰訊混元文生圖大模型全面開源！

2024-05-15碼農

和大家匯報：

騰訊混元文生圖大模型，全面升級並對外開源！

作為業內第一個中文原生的DiT架構開源模型，騰訊混元文生圖支持中英文雙語輸入及理解。

除直接用於文生圖，也可作為視訊等多模態視覺生成的基礎。

介紹一下，我的幾項標簽：

//DiT架構

優秀的大模型，離不開領先的技術架構。

去年7月，騰訊混元文生圖團隊就明確了基於DiT架構的模型方向。

（DiT是基於Transformer的擴散模型架構，是Sora、Stable Diffusion 3 也選用的關鍵技術。）

今年初，騰訊混元文生圖完成了模型架構的全面升級，相比上一代整體效果提升超過20%。

//中文原生

此前，Stable Diffusion等主流文生圖開源模型，核心數據集以英文為主，基於Stable Diffusion的中文套用本質上是透過中譯英的方式處理文本。

碰上古詩詞、民間俚語、傳統建築等中國元素，又或者「紅燒獅子頭」「老婆餅」「魚香肉絲」等特色詞匯，容易出現較大的理解偏差。

中文原生的騰訊混元文生圖，母語就是中文：

透過對漢語字元系統、文化內涵的深度學習，對國風元素和中文復雜性有更深刻的理解。

文生圖提示詞：

請將「杞人憂天」的樣子畫出來

中文輸入後，直接中文理解，不會因轉譯產生語意分歧。

//表現提升

- 多輪對話： 透過自然語言對話不斷微調，修改主體、背景、元素及風格，整體畫面保持高一致性。

多輪文生圖提示詞： (1)畫一名德國男性； (2)讓他再德國一些； (3)讓他更德國一些。

多輪文生圖提示詞： (1)畫一朵長在森林中的白色玫瑰； (2)背景換成室內，花插在瓶中； (3)將花改為百合花； (4)花瓣改為粉色； (5)讓蝴蝶落在花瓣上； (6)改成動漫風格。

- 人像提升： 質感升級，減少畸變，支持不同職業、年齡、身材、視角、景別人像。

- 長文本理解： 能分析和理解長篇文本中的資訊並生成相應藝術作品。

文生圖提示詞：一張細致的照片捕捉到了一尊雕像的形象，這尊雕像酷似一位古代法老，頭上出人意料地戴著一副青銅蒸汽龐克護目鏡。這座雕像穿著復古時髦，一件清爽的白色T恤和一件合身的黑色皮夾克，與傳統的頭飾形成鮮明對比。背景是簡單的純色，突出了雕像的非傳統服裝和蒸汽龐克眼鏡的復雜細節。

//全面開源

目前，騰訊混元文生圖大模型已在 Hugging Face 平台及 Github 上釋出，包含模型權重、推理程式碼、模型演算法等完整模型。

不管是企業還是個人開發者，全部免費可用。

此次混元文生圖將新一代模型完整開源，也是希望進一步共享經驗，惠及行業，共建下一代視覺生成開源生態。

最後，附上我們的開源地址，歡迎拍磚↓

https://dit.hunyuan.tencent.com/

（點選閱讀原文，也可存取）