Amphion：最全能的开源AI音频项目，在音频商业化方面有极大的帮助

2024-02-02码农

项目简介

Amphion是一个面向音频、音乐和语音生成的工具包，致力于支持可复制研究，并帮助初级研究人员和工程师开始从事音频、音乐和语音生成领域的研究与开发工作。通过提供这样一个工具包，Amphion试图降低入门门槛，促进该领域的研究进展和技术发展。

扫码加入交流群

获得更多技术支持和交流

功能

TTS：文本转语音（⛳ 支持）

SVS：音乐合成（👨‍💻开发中）

VC：语音转换（👨‍💻开发中）

SVC：音乐转换（⛳支持）

TTA：文本转音频（⛳ 支持）

TTM：文本转音乐（👨‍💻 开发中）

演示

功能特点

SVC：歌声转换Amphion

· 支持来自各种预训练模型的多个基于内容的特征，包括 WeNet、Whisper 和 ContentVec。它们在 SVC 中的具体角色已在我们的 NeurIPS 2023 工作坊论文中进行了研究。

· Amphion 实现了几种最先进的模型架构，包括基于扩散的、基于变换器的、基于VAE的和基于流的模型。基于扩散的架构使用双向扩张CNN作为后端，并支持几种采样算法，如 DDPM、DDIM 和 PNDM。此外，它还支持基于一致性模型的单步推理。

TTS: 文字转语音

· 与现有的开源文字转语音（TTS）系统相比，Amphion 实现了最先进的性能。

· 它支持以下模型或架构：

FastSpeech2：一种非自回归TTS架构，利用前馈Transformer块。

VITS：一种端到端的TTS架构，利用条件变分自编码器和对抗学习。

Vall-E：一种零样本TTS架构，使用具有离散代码的神经编解码器语言模型。

NaturalSpeech2：一种利用潜在扩散模型生成自然听起来的声音的TTS架构。

TTA：文本转音频

Amphion 支持使用潜在扩散模型的 TTA。它的设计类似于 AudioLDM、Make-an-Audio 和 AUDIT。它也是我们 NeurIPS 2023 论文中文本到音频生成部分的官方实现。

声码器

Amphion 支持各种广泛使用的神经声码器，包括：

· 基于 GAN 的声码器：MelGAN、HiFi-GAN、NSF-HiFiGAN、BigVGAN、APNet。

· 基于流的声码器：WaveGlow。

· 基于扩散的声码器：Diffwave。

· 基于自回归的声码器：WaveNet、WaveRNN。

Amphion 提供了多尺度常量Q变换鉴别器（我们的 ICASSP 2024 论文）的官方实现。它可以用于在训练期间增强任何基于 GAN 的声码器架构，并保持推理阶段（如内存或速度）不变。

评估

Amphion 提供了生成音频的全面客观评估。评估指标包括：

· 基频（F0）建模：F0 皮尔森系数、F0 周期性均方根误差、F0 均方根误差、有声/无声 F1 分数等。

· 能量建模：能量均方根误差、能量皮尔森系数等。

· 可理解性：基于 Whisper 等计算的字符/词错误率。

· 频谱失真：Frechet 音频距离（FAD）、Mel 倒谱失真（MCD）、多分辨率STFT距离（MSTFT）、语音质量感知评估（PESQ）、短时客观可懂度（STOI）等。

· 说话人相似性：余弦相似度，可以基于 RawNet3、Resemblyzer、WeSpeaker、WavLM 等计算。

项目链接

https://github.com/open-mmlab/Amphion

关注「开源AI项目落地」公众号