音訊複制的開源計畫很多,但是每次計畫裏要用的時候,總還是惦記著11labs的api。
要是開源的效果足夠好,哪怕是達到11labs 80%的效果,我是肯定不會願意付那美金再跑回來賺那辛苦錢。
上海交大開源的F5-TTS實測下來確實是還不錯了。
不敢說他比11labs好,畢竟11labs做了那麽久最佳化的確實已經很好了,但是F5-TTS的效果肯定可以說是還不錯了。
又一個達到商用效果的開源來了! 只是別被緬北拿去就好。
掃碼加入AI交流群
獲得更多技術支持和交流
(請註明自己的職業)
計畫簡介
F5-TTS是一款基於流匹配的全非自回歸文本到語音轉換系統。不需要復雜的設計如持續時間模型、文本編碼器和音素對齊,能夠快速訓練並實作即時因素(RTF)0.15的推理速度,顯著優於當前基於擴散的TTS模型。F5-TTS在公共的100K小時多語言數據集上進行訓練,展現出高自然性和表現力的零樣本能力、無縫程式碼切換能力和速度控制效率。計畫提出了一種推理時的搖擺采樣策略,顯著提高了模型的效能和效率。
DEMO
兩段音訊是一組,上面是原音訊,下面是複制的。
這是官方給到的DEMO,複制的結果簡直太逼真了!
下面這是我自己做的。效果是很好,只是不理解為什麽讀到「AI」的時候加了電音,是想讓AI行業更潮一點嗎?
技術亮點
1、全非自回歸架構:
傳統的文本到語音(TTS)系統多使用自回歸模型,這種模型一次生成一個音訊片段,處理速度較慢。
F5-TTS采用全非自回歸模型,能夠並列處理整個語音合成任務,顯著提高了處理速度和效率。
2、流匹配技術:
F5-TTS中采用了先進的流匹配技術,這是一種基於最優傳輸路徑的方法,用於改進生成模型的學習過程。
該技術允許模型更精確地模擬目標數據的分布,從而提高合成語音的自然性和準確性。
3、Diffusion Transformer(DiT)的套用:
F5-TTS利用了Diffusion Transformer,這是一種結合了擴散模型的Transformer結構,專門用於處理生成任務中的對齊和數據生成問題。
DiT可以在保持文本到語音合成高品質的同時,提供更快的響應時間和更低的資源消耗。
4、Sway Sampling策略:
在推理時,F5-TTS引入了Sway Sampling策略,這是一種新穎的采樣方法,用於在模型的流步驟中更有效地選擇樣本。
這種方法可以進一步提升語音生成的自然度和可理解性,同時保持與原始文本的高度一致性。
5、簡化的訓練流程:
相比傳統模型,F5-TTS不需要復雜的元件如持續時間預測器、文本編碼器或音素對齊模組。
這種簡化大大降低了模型的復雜性,使得訓練過程更快,同時降低了對計算資源的需求。
6、高效能和多語言支持:
F5-TTS在公共的100K小時多語言數據集上進行訓練,展示了其對多種語言的高自然處理能力。
該模型支持無縫的程式碼切換能力和速度控制,使其在多樣化的套用場景中表現出色。
計畫連結
https://www.dongaigc.com/p/SWivid/F5-TTS/?a=123
這是個綜合連結,模型點Github,試用點Huggingface。
關註「 開源AI計畫落地 」公眾號
與AI時代更靠近一點
關註「 向量光年 」公眾號
加速全行業向AI轉變
關註「 AGI光年 」公眾號
獲取每日最新資訊