当前位置: 欣欣网 > 码农

Amphion:最全能的开源AI音频项目,在音频商业化方面有极大的帮助

2024-02-02码农

项目简介

Amphion是一个面向音频、音乐和语音生成的工具包,致力于支持可复制研究,并帮助初级研究人员和工程师开始从事音频、音乐和语音生成领域的研究与开发工作。通过提供这样一个工具包,Amphion试图降低入门门槛,促进该领域的研究进展和技术发展。

扫码加入交流群

获得更多技术支持和交流

功能

TTS:文本转语音(⛳ 支持)

SVS:音乐合成(👨‍💻开发中)

VC:语音转换(👨‍💻开发中)

SVC:音乐转换(⛳支持)

TTA:文本转音频(⛳ 支持)

TTM:文本转音乐(👨‍💻 开发中)

演示

功能特点

SVC:歌声转换Amphion

· 支持来自各种预训练模型的多个基于内容的特征,包括 WeNet、Whisper 和 ContentVec。它们在 SVC 中的具体角色已在我们的 NeurIPS 2023 工作坊论文中进行了研究。

· Amphion 实现了几种最先进的模型架构,包括基于扩散的、基于变换器的、基于VAE的和基于流的模型。基于扩散的架构使用双向扩张CNN作为后端,并支持几种采样算法,如 DDPM、DDIM 和 PNDM。此外,它还支持基于一致性模型的单步推理。

TTS: 文字转语音

· 与现有的开源文字转语音(TTS)系统相比,Amphion 实现了最先进的性能。

· 它支持以下模型或架构:

FastSpeech2:一种非自回归TTS架构,利用前馈Transformer块。

VITS:一种端到端的TTS架构,利用条件变分自编码器和对抗学习。

Vall-E:一种零样本TTS架构,使用具有离散代码的神经编解码器语言模型。

NaturalSpeech2:一种利用潜在扩散模型生成自然听起来的声音的TTS架构。

TTA:文本转音频

Amphion 支持使用潜在扩散模型的 TTA。它的设计类似于 AudioLDM、Make-an-Audio 和 AUDIT。它也是我们 NeurIPS 2023 论文中文本到音频生成部分的官方实现。

声码器

Amphion 支持各种广泛使用的神经声码器,包括:

· 基于 GAN 的声码器:MelGAN、HiFi-GAN、NSF-HiFiGAN、BigVGAN、APNet。

· 基于流的声码器:WaveGlow。

· 基于扩散的声码器:Diffwave。

· 基于自回归的声码器:WaveNet、WaveRNN。

Amphion 提供了多尺度常量Q变换鉴别器(我们的 ICASSP 2024 论文)的官方实现。它可以用于在训练期间增强任何基于 GAN 的声码器架构,并保持推理阶段(如内存或速度)不变。

评估

Amphion 提供了生成音频的全面客观评估。评估指标包括:

· 基频(F0)建模:F0 皮尔森系数、F0 周期性均方根误差、F0 均方根误差、有声/无声 F1 分数等。

· 能量建模:能量均方根误差、能量皮尔森系数等。

· 可理解性:基于 Whisper 等计算的字符/词错误率。

· 频谱失真:Frechet 音频距离(FAD)、Mel 倒谱失真(MCD)、多分辨率STFT距离(MSTFT)、语音质量感知评估(PESQ)、短时客观可懂度(STOI)等。

· 说话人相似性:余弦相似度,可以基于 RawNet3、Resemblyzer、WeSpeaker、WavLM 等计算。

项目链接

https://github.com/open-mmlab/Amphion

关注「 开源AI项目落地 」公众号