01

ChatTTS：革新對話式文本轉語音技術

ChatTTS 是由 2noise 團隊開發的一款專為對話場景設計的文本轉語音（TTS）模型。它不僅支持英文和中文兩種語言，而且經過了超過 10 萬小時的中英文數據訓練，表現出色。

ChatTTS的亮點在於其對話式TTS的最佳化， 它能夠生成自然流暢的語音並支持多說話人。

此外，模型還能夠預測和控制細粒度的韻律特征，如笑聲、停頓和插入詞等，提供了更好的韻律表現。

它在韻律方面超越了大部份開源TTS模型，並提供了預訓練模型以支持進一步的研究。

開源地址：https://github.com/2noise/ChatTTS

程式碼範例

ChatTTS 提供了基本用法和進階用法的程式碼範例，允許使用者快速開始使用模型，並進行更精細的控制。

基本用法範例

import ChatTTS from IPython.display 、
import Audio chat = ChatTTS.Chat()
chat.load_models(compile=False) # 設定為True以獲得更快速度
texts = ["在這裏輸入你的文本",]
wavs = chat.infer(texts, use_decoder=True)
torchaudio.save("output1.wav", torch.from_numpy(wavs[0]), 24000)

如下是一個樣例：

inputs_cn = """
chat T T S 是一款強大的對話式文本轉語音模型。它有中英混讀和多說話人的能力。
chat T T S 不僅能夠生成自然流暢的語音，還能控制[laugh]笑聲啊[laugh]，
停頓啊[uv_break]語氣詞啊等副語言現象[uv_break]。這個韻律超越了許多開源模型[uv_break]。
請註意，chat T T S 的使用應遵守法律和倫理準則，避免濫用的安全風險。[uv_break]'
""".replace('\n', '')
params_refine_text = {
'prompt': '[oral_2][laugh_0][break_4]'
}
audio_array_cn = chat.infer(inputs_cn, params_refine_text=params_refine_text)
# audio_array_en = chat.infer(inputs_en, params_refine_text=params_refine_text)
torchaudio.save("output3.wav", torch.from_numpy(audio_array_cn[0]), 24000)