本期推薦開源計畫目錄:
1. ChatTTS:革新對話式文本轉語音技術
2. 騰訊AI實驗室推出:一鍵生成逼真口型視訊
01
ChatTTS:革新對話式文本轉語音技術
ChatTTS 是由 2noise 團隊開發的一款專為對話場景設計的文本轉語音(TTS)模型。它不僅支持英文和中文兩種語言,而且經過了超過 10 萬小時的中英文數據訓練,表現出色。
ChatTTS的亮點在於其對話式TTS的最佳化, 它能夠生成自然流暢的語音並支持多說話人。
此外,模型還能夠預測和控制細粒度的韻律特征,如笑聲、停頓和插入詞等,提供了更好的韻律表現。
它在韻律方面超越了大部份開源TTS模型,並提供了預訓練模型以支持進一步的研究。
開源地址:https://github.com/2noise/ChatTTS
程式碼範例
ChatTTS 提供了基本用法和進階用法的程式碼範例,允許使用者快速開始使用模型,並進行更精細的控制。
基本用法範例
import ChatTTS from IPython.display 、
import Audio chat = ChatTTS.Chat()
chat.load_models(compile=False) # 設定為True以獲得更快速度
texts = ["在這裏輸入你的文本",]
wavs = chat.infer(texts, use_decoder=True)
torchaudio.save("output1.wav", torch.from_numpy(wavs[0]), 24000)
如下是一個樣例:
inputs_cn = """
chat T T S 是一款強大的對話式文本轉語音模型。它有中英混讀和多說話人的能力。
chat T T S 不僅能夠生成自然流暢的語音,還能控制[laugh]笑聲啊[laugh],
停頓啊[uv_break]語氣詞啊等副語言現象[uv_break]。這個韻律超越了許多開源模型[uv_break]。
請註意,chat T T S 的使用應遵守法律和倫理準則,避免濫用的安全風險。[uv_break]'
""".replace('\n', '')
params_refine_text = {
'prompt': '[oral_2][laugh_0][break_4]'
}
audio_array_cn = chat.infer(inputs_cn, params_refine_text=params_refine_text)
# audio_array_en = chat.infer(inputs_en, params_refine_text=params_refine_text)
torchaudio.save("output3.wav", torch.from_numpy(audio_array_cn[0]), 24000)
02
騰訊AI實驗室推出:一鍵生成逼真口型視訊
V-Express 是由騰訊 AI 實驗室(Tencent AI Lab)開發的一項創新技術, 旨在透過控制一張參考圖片、一段音訊和一系列 V-Kps(視覺關鍵點)影像來生成逼真的口型視訊。
這項技術透過漸進式訓練和條件性丟棄(Conditional Dropout)的方法,平衡了不同控制訊號,使得生成的視訊能夠同時考慮姿勢、輸入影像和音訊。
比如說你只有一張泰勒斯威夫特的靜態照片,只需要再給模型輸入一段音訊、視訊關鍵點,這個模型就能生成逼真的口型視訊。
會將音訊中的內容讀出來。
上傳個圖片
生成的逼真口型視訊
V-Express 的核心優勢在於其能夠處理控制訊號的強弱差異,尤其是音訊訊號,這些訊號在生成過程中往往被其他更強的訊號(如姿勢和原始影像)所掩蓋。
透過一系列漸進式的丟棄操作,V-Express逐漸啟用了對弱條件的有效控制,從而實作了同時考慮姿勢、輸入影像和音訊的生成能力。
開源地址:https://github.com/tencent-ailab/V-Express
推薦閱讀
1.
2.
3.
4.