首页 >> 大全

语音合成论文优选:M2voc大赛总结The M2voc Challenge 20

2023-07-22 大全 34 作者:考证青年

- Multi-style Voice

本文是西北工业大学、新加坡国立大学,清华大学,爱奇艺等7家学术界和工业界在2021.04.05发表的文章,主要对Multi- Multi-style Voice 大赛采用方案的总结,具体的文章链接

1背景

m2voc挑战官网()

文语转换(TTS)又称为语音合成,旨在将文本转换成自然语音的一类技术,是智能语音领域的前沿技术,在语音助手、信息播报、有声读物等方面具有重要的应用价值。在深度学习的帮助下,语音合成已实现了效果上的显著提升。端到端语音合成框架和神经声码器的最新进展使得我们能够生成特定领域内非常逼真和自然的语音,几乎可以以假乱真。但是,这种令人惊叹的能力仍然受限于训练集是大量单一说话人且表现力不够丰富数据的的理想情况。对于多说话人和多风格的语音合成,特别是在真实环境录制或是低资源的情况下表现力和鲁棒性仍然不能令人满意。例如,仅拥有每个说话人非常少量的音频样本时,语音的质量和目标说话人的相似度、表现力和鲁棒性仍然不能令人满意。即便是现有公开的音色克隆方案,对集外数据的音色复刻缺乏鲁棒性。我们称这种有挑战性的任务为多说话人和多风格的语音克隆任务(M2VoC)。近年来,迁移学习、风格迁移,说话人编码和因素解耦方面的最新进展,为低资源语音克隆的提供了潜在的解决方案。作为2021年声学、语音和信号处理国际会议()信号处理挑战旗舰任务之一,M2VoC挑战赛旨在提供一个通用的数据集以及一个公平的测试平台,对语音克隆任务进行研究。我们非常鼓励学术界和工业界的研究人员加入挑战,一起进行深入的讨论和合作。

我们设置了以下两个任务。

赛道1:少样本赛道

主办方将分别提供两个和三个说话人用于音色克隆的校验和最终测试。每个说话人有不同的说话风格和100个可用的音色克隆样例。主办方还将为参赛者提供一个多说话人语料库,可用来训练基础模型。目标说话人的测试集是一系列句子和短段落,用于针对目标说话人的文本到语音的生成。

子赛道1A:语音合成系统的搭建仅限于使用竞赛组织者提供的数据,禁止使用除此之外的数据。

子赛道1B:除了竞赛组织者提供的数据之外,可以使用任何公开数据搭建语音合成系统。但是在提交的系统描述中,应当明确说明使用的公开数据来源。

赛道2:极少样本赛道

主办方将分别提供两个和三个说话人用于音色克隆的校验和最终测试。每个说话人有不同的说话风格和5个可用的音色克隆样例。主办方还将为参赛者提供一个多说话人语料库,可用来训练基础模型。目标说话人的测试集是一系列句子和短段落,用于针对目标说话人的文本到语音的生成。

子赛道2A:语音合成系统的搭建仅限于使用竞赛组织者提供的数据,禁止使用除此之外的数据。

子赛道2B:除了竞赛组织者提供的数据之外,可以使用任何公开数据搭建语音合成系统。但是在提交的系统描述中,应当明确说明使用的公开数据来源。

2方案总结

本赛事由26支队伍,其中包括两只基准b01和b02队伍,以及24只学术界和产业界参加的队伍T01~T24。本部分的总结主要对参赛的队伍采用的方案总结​:

1)​声学模型:

参赛队伍的方案方案:(主流)、​。

non-方案:系列主流

语音相关论文_语音小论文_

2)​声码器:方案​:(主流)、

non-方案:(主流)、

3)和style模型:主要是 或者

4)和style自适用: 和fine-p

3 大赛结果

图1展示本次大赛的所有结果​。和是比较好的队伍情况,其中track 1方案较好为 + 或者 +​。

4 总结

本文章总结了The M2voc 2021大赛的情况,其中主流方案为声学模型(,)+声码器(,hifi-gan)​。不过对于zero-shot的情况还是不太理想。​

关于我们

最火推荐

小编推荐

联系我们


版权声明:本站内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88@qq.com 举报,一经查实,本站将立刻删除。备案号:桂ICP备2021009421号
Powered By Z-BlogPHP.
复制成功
微信号:
我知道了