當前位置: 妍妍網 > 碼農

F5-TTS:上海交大開源超逼真聲音複制TTS,告別ElevenLabs,以後就用它了!實測真的很牛

2024-10-14碼農

音訊複制的開源計畫很多,但是每次計畫裏要用的時候,總還是惦記著11labs的api。

要是開源的效果足夠好,哪怕是達到11labs 80%的效果,我是肯定不會願意付那美金再跑回來賺那辛苦錢。

上海交大開源的F5-TTS實測下來確實是還不錯了。

不敢說他比11labs好,畢竟11labs做了那麽久最佳化的確實已經很好了,但是F5-TTS的效果肯定可以說是還不錯了。

又一個達到商用效果的開源來了! 只是別被緬北拿去就好。

掃碼加入AI交流群

獲得更多技術支持和交流

(請註明自己的職業)

計畫簡介

F5-TTS是一款基於流匹配的全非自回歸文本到語音轉換系統。不需要復雜的設計如持續時間模型、文本編碼器和音素對齊,能夠快速訓練並實作即時因素(RTF)0.15的推理速度,顯著優於當前基於擴散的TTS模型。F5-TTS在公共的100K小時多語言數據集上進行訓練,展現出高自然性和表現力的零樣本能力、無縫程式碼切換能力和速度控制效率。計畫提出了一種推理時的搖擺采樣策略,顯著提高了模型的效能和效率。

DEMO

兩段音訊是一組,上面是原音訊,下面是複制的。

這是官方給到的DEMO,複制的結果簡直太逼真了!

下面這是我自己做的。效果是很好,只是不理解為什麽讀到「AI」的時候加了電音,是想讓AI行業更潮一點嗎?

技術亮點

1、全非自回歸架構:

  • 傳統的文本到語音(TTS)系統多使用自回歸模型,這種模型一次生成一個音訊片段,處理速度較慢。

  • F5-TTS采用全非自回歸模型,能夠並列處理整個語音合成任務,顯著提高了處理速度和效率。

  • 2、流匹配技術:

  • F5-TTS中采用了先進的流匹配技術,這是一種基於最優傳輸路徑的方法,用於改進生成模型的學習過程。

  • 該技術允許模型更精確地模擬目標數據的分布,從而提高合成語音的自然性和準確性。

  • 3、Diffusion Transformer(DiT)的套用:

  • F5-TTS利用了Diffusion Transformer,這是一種結合了擴散模型的Transformer結構,專門用於處理生成任務中的對齊和數據生成問題。

  • DiT可以在保持文本到語音合成高品質的同時,提供更快的響應時間和更低的資源消耗。

  • 4、Sway Sampling策略:

  • 在推理時,F5-TTS引入了Sway Sampling策略,這是一種新穎的采樣方法,用於在模型的流步驟中更有效地選擇樣本。

  • 這種方法可以進一步提升語音生成的自然度和可理解性,同時保持與原始文本的高度一致性。

  • 5、簡化的訓練流程:

  • 相比傳統模型,F5-TTS不需要復雜的元件如持續時間預測器、文本編碼器或音素對齊模組。

  • 這種簡化大大降低了模型的復雜性,使得訓練過程更快,同時降低了對計算資源的需求。

  • 6、高效能和多語言支持:

  • F5-TTS在公共的100K小時多語言數據集上進行訓練,展示了其對多種語言的高自然處理能力。

  • 該模型支持無縫的程式碼切換能力和速度控制,使其在多樣化的套用場景中表現出色。

  • 計畫連結

    https://www.dongaigc.com/p/SWivid/F5-TTS/?a=123

    這是個綜合連結,模型點Github,試用點Huggingface。

    關註「 開源AI計畫落地 」公眾號

    與AI時代更靠近一點

    關註「 向量光年 」公眾號

    加速全行業向AI轉變

    關註「 AGI光年 」公眾號

    獲取每日最新資訊