當前位置: 妍妍網 > 碼農

騰訊混元文生圖大模型全面開源!

2024-05-15碼農

和大家匯報:

騰訊混元文生圖大模型,全面升級並對外開源!

作為業內第一個中文原生的DiT架構開源模型,騰訊混元文生圖支持中英文雙語輸入及理解。

直接用於文生圖,也可作為視訊等多模態視覺生成的基礎。

介紹一下,我的幾項標簽:

//DiT架構

優秀的大模型,離不開領先的技術架構。

去年7月,騰訊混元文生圖團隊就明確了基於DiT架構的模型方向。

(DiT是基於Transformer的擴散模型架構,是Sora、Stable Diffusion 3 也選用的關鍵技術。)

今年初,騰訊混元文生圖完成了模型架構的全面升級, 相比上一代整體效果提升超過20%。

//中文原生

此前,Stable Diffusion等主流文生圖開源模型,核心數據集以英文為主,基於Stable Diffusion的中文套用本質上是透過中譯英的方式處理文本。

碰上古詩詞、民間俚語、傳統建築等中國元素,又或者「紅燒獅子頭」「老婆餅」「魚香肉絲」等特色詞匯,容易出現較大的理解偏差。

中文原生的騰訊混元文生圖,母語就是中文:

透過對漢語字元系統、文化內涵的深度學習, 對國風元素和中文復雜性有更深刻的理解。

文生圖提示詞:

請將「杞人憂天」的樣子畫出來

中文輸入後,直接中文理解,不會因轉譯產生語意分歧。

//表現提升

- 多輪對話: 透過自然語言對話不斷微調,修改主體、背景、元素及風格,整體畫面保持高一致性。

多輪文生圖提示詞: (1)畫一名德國男性; (2)讓他再德國一些; (3)讓他更德國一些。

多輪文生圖提示詞: (1)畫一朵長在森林中的白色玫瑰; (2)背景換成室內,花插在瓶中; (3)將花改為百合花; (4)花瓣改為粉色; (5)讓蝴蝶落在花瓣上; (6)改成動漫風格。

- 人像提升: 質感升級,減少畸變,支持不同職業、年齡、身材、視角、景別人像。

- 長文本理解: 能分析和理解長篇文本中的資訊並生成相應藝術作品。

文生圖提示詞:一張細致的照片捕捉到了一尊雕像的形象,這尊雕像酷似一位古代法老,頭上出人意料地戴著一副青銅蒸汽龐克護目鏡。 這座雕像穿著復古時髦,一件清爽的白色T恤和一件合身的黑色皮夾克,與傳統的頭飾形成鮮明對比。 背景是簡單的純色,突出了雕像的非傳統服裝和 蒸汽龐克 眼鏡的復雜細節。

//全面開源

目前,騰訊混元文生圖大模型已在 Hugging Face 平台及 Github 上釋出,包含模型權重、推理程式碼、模型演算法等完整模型。

不管是企業還是個人開發者,全部免費可用。

此次混元文生圖將新一代模型完整開源,也是希望進一步 共享經驗,惠及行業,共建下一代視覺生成開源生態。

最後,附上我們的開源地址,歡迎拍磚↓

https://dit.hunyuan.tencent.com/

(點選閱讀原文,也可存取)