项目简介
Amphion是一个面向音频、音乐和语音生成的工具包,致力于支持可复制研究,并帮助初级研究人员和工程师开始从事音频、音乐和语音生成领域的研究与开发工作。通过提供这样一个工具包,Amphion试图降低入门门槛,促进该领域的研究进展和技术发展。
扫码加入交流群
获得更多技术支持和交流
功能
TTS:文本转语音(⛳ 支持)
SVS:音乐合成(👨💻开发中)
VC:语音转换(👨💻开发中)
SVC:音乐转换(⛳支持)
TTA:文本转音频(⛳ 支持)
TTM:文本转音乐(👨💻 开发中)
演示
功能特点
SVC:歌声转换Amphion
· 支持来自各种预训练模型的多个基于内容的特征,包括 WeNet、Whisper 和 ContentVec。它们在 SVC 中的具体角色已在我们的 NeurIPS 2023 工作坊论文中进行了研究。
· Amphion 实现了几种最先进的模型架构,包括基于扩散的、基于变换器的、基于VAE的和基于流的模型。基于扩散的架构使用双向扩张CNN作为后端,并支持几种采样算法,如 DDPM、DDIM 和 PNDM。此外,它还支持基于一致性模型的单步推理。
TTS: 文字转语音
· 与现有的开源文字转语音(TTS)系统相比,Amphion 实现了最先进的性能。
· 它支持以下模型或架构:
FastSpeech2:一种非自回归TTS架构,利用前馈Transformer块。
VITS:一种端到端的TTS架构,利用条件变分自编码器和对抗学习。
Vall-E:一种零样本TTS架构,使用具有离散代码的神经编解码器语言模型。
NaturalSpeech2:一种利用潜在扩散模型生成自然听起来的声音的TTS架构。
TTA:文本转音频
Amphion 支持使用潜在扩散模型的 TTA。它的设计类似于 AudioLDM、Make-an-Audio 和 AUDIT。它也是我们 NeurIPS 2023 论文中文本到音频生成部分的官方实现。
声码器
Amphion 支持各种广泛使用的神经声码器,包括:
· 基于 GAN 的声码器:MelGAN、HiFi-GAN、NSF-HiFiGAN、BigVGAN、APNet。
· 基于流的声码器:WaveGlow。
· 基于扩散的声码器:Diffwave。
· 基于自回归的声码器:WaveNet、WaveRNN。
Amphion 提供了多尺度常量Q变换鉴别器(我们的 ICASSP 2024 论文)的官方实现。它可以用于在训练期间增强任何基于 GAN 的声码器架构,并保持推理阶段(如内存或速度)不变。
评估
Amphion 提供了生成音频的全面客观评估。评估指标包括:
· 基频(F0)建模:F0 皮尔森系数、F0 周期性均方根误差、F0 均方根误差、有声/无声 F1 分数等。
· 能量建模:能量均方根误差、能量皮尔森系数等。
· 可理解性:基于 Whisper 等计算的字符/词错误率。
· 频谱失真:Frechet 音频距离(FAD)、Mel 倒谱失真(MCD)、多分辨率STFT距离(MSTFT)、语音质量感知评估(PESQ)、短时客观可懂度(STOI)等。
· 说话人相似性:余弦相似度,可以基于 RawNet3、Resemblyzer、WeSpeaker、WavLM 等计算。
项目链接
https://github.com/open-mmlab/Amphion
关注「 开源AI项目落地 」公众号