F5-TTS：上海交大開源超逼真聲音複制TTS，告別ElevenLabs，以後就用它了！實測真的很牛

2024-10-14碼農

音訊複制的開源計畫很多，但是每次計畫裏要用的時候，總還是惦記著11labs的api。

要是開源的效果足夠好，哪怕是達到11labs 80%的效果，我是肯定不會願意付那美金再跑回來賺那辛苦錢。

上海交大開源的F5-TTS實測下來確實是還不錯了。

不敢說他比11labs好，畢竟11labs做了那麽久最佳化的確實已經很好了，但是F5-TTS的效果肯定可以說是還不錯了。

又一個達到商用效果的開源來了！只是別被緬北拿去就好。

掃碼加入AI交流群

獲得更多技術支持和交流

（請註明自己的職業）

計畫簡介

F5-TTS是一款基於流匹配的全非自回歸文本到語音轉換系統。不需要復雜的設計如持續時間模型、文本編碼器和音素對齊，能夠快速訓練並實作即時因素（RTF）0.15的推理速度，顯著優於當前基於擴散的TTS模型。F5-TTS在公共的100K小時多語言數據集上進行訓練，展現出高自然性和表現力的零樣本能力、無縫程式碼切換能力和速度控制效率。計畫提出了一種推理時的搖擺采樣策略，顯著提高了模型的效能和效率。

DEMO

兩段音訊是一組，上面是原音訊，下面是複制的。

這是官方給到的DEMO，複制的結果簡直太逼真了！

下面這是我自己做的。效果是很好，只是不理解為什麽讀到「AI」的時候加了電音，是想讓AI行業更潮一點嗎？

技術亮點

1、全非自回歸架構：

傳統的文本到語音(TTS)系統多使用自回歸模型，這種模型一次生成一個音訊片段，處理速度較慢。

F5-TTS采用全非自回歸模型，能夠並列處理整個語音合成任務，顯著提高了處理速度和效率。

2、流匹配技術：

F5-TTS中采用了先進的流匹配技術，這是一種基於最優傳輸路徑的方法，用於改進生成模型的學習過程。

該技術允許模型更精確地模擬目標數據的分布，從而提高合成語音的自然性和準確性。

3、Diffusion Transformer（DiT）的套用：