當前位置: 妍妍網 > 碼農

這兩個牛逼哄哄的 AI 計畫開源了!

2024-06-03碼農

本期推薦開源計畫目錄:

1. ChatTTS:革新對話式文本轉語音技術

2. 騰訊AI實驗室推出:一鍵生成逼真口型視訊

01

ChatTTS:革新對話式文本轉語音技術

ChatTTS 是由 2noise 團隊開發的一款專為對話場景設計的文本轉語音(TTS)模型。它不僅支持英文和中文兩種語言,而且經過了超過 10 萬小時的中英文數據訓練,表現出色。

ChatTTS的亮點在於其對話式TTS的最佳化, 它能夠生成自然流暢的語音並支持多說話人。

此外,模型還能夠預測和控制細粒度的韻律特征,如笑聲、停頓和插入詞等,提供了更好的韻律表現。

它在韻律方面超越了大部份開源TTS模型,並提供了預訓練模型以支持進一步的研究。

開源地址:https://github.com/2noise/ChatTTS

程式碼範例

ChatTTS 提供了基本用法和進階用法的程式碼範例,允許使用者快速開始使用模型,並進行更精細的控制。

基本用法範例

import ChatTTS from IPython.display 、
import Audio chat = ChatTTS.Chat()
chat.load_models(compile=False) # 設定為True以獲得更快速度
texts = ["在這裏輸入你的文本",]
wavs = chat.infer(texts, use_decoder=True)
torchaudio.save("output1.wav", torch.from_numpy(wavs[0]), 24000)

如下是一個樣例:

inputs_cn = """
chat T T S 是一款強大的對話式文本轉語音模型。它有中英混讀和多說話人的能力。
chat T T S 不僅能夠生成自然流暢的語音,還能控制[laugh]笑聲啊[laugh],
停頓啊[uv_break]語氣詞啊等副語言現象[uv_break]。這個韻律超越了許多開源模型[uv_break]。
請註意,chat T T S 的使用應遵守法律和倫理準則,避免濫用的安全風險。[uv_break]'
"""
.replace('\n', '')
params_refine_text = {
'prompt': '[oral_2][laugh_0][break_4]'
}
audio_array_cn = chat.infer(inputs_cn, params_refine_text=params_refine_text)
# audio_array_en = chat.infer(inputs_en, params_refine_text=params_refine_text)
torchaudio.save("output3.wav", torch.from_numpy(audio_array_cn[0]), 24000)

02

騰訊AI實驗室推出:一鍵生成逼真口型視訊

V-Express 是由騰訊 AI 實驗室(Tencent AI Lab)開發的一項創新技術, 旨在透過控制一張參考圖片、一段音訊和一系列 V-Kps(視覺關鍵點)影像來生成逼真的口型視訊。

這項技術透過漸進式訓練和條件性丟棄(Conditional Dropout)的方法,平衡了不同控制訊號,使得生成的視訊能夠同時考慮姿勢、輸入影像和音訊。

比如說你只有一張泰勒斯威夫特的靜態照片,只需要再給模型輸入一段音訊、視訊關鍵點,這個模型就能生成逼真的口型視訊。 會將音訊中的內容讀出來。

上傳個圖片

生成的逼真口型視訊

V-Express 的核心優勢在於其能夠處理控制訊號的強弱差異,尤其是音訊訊號,這些訊號在生成過程中往往被其他更強的訊號(如姿勢和原始影像)所掩蓋。

透過一系列漸進式的丟棄操作,V-Express逐漸啟用了對弱條件的有效控制,從而實作了同時考慮姿勢、輸入影像和音訊的生成能力。

開源地址:https://github.com/tencent-ailab/V-Express

推薦閱讀

1.

2.

3.

4.