语音合成论文优选：M2voc大赛总结The M2voc Challenge 20

2023-07-22 大全 34 作者：考证青年

- Multi-style Voice

本文是西北工业大学、新加坡国立大学，清华大学，爱奇艺等7家学术界和工业界在2021.04.05发表的文章，主要对Multi- Multi-style Voice 大赛采用方案的总结，具体的文章链接

1背景

m2voc挑战官网（）

文语转换（TTS）又称为语音合成，旨在将文本转换成自然语音的一类技术，是智能语音领域的前沿技术，在语音助手、信息播报、有声读物等方面具有重要的应用价值。在深度学习的帮助下，语音合成已实现了效果上的显著提升。端到端语音合成框架和神经声码器的最新进展使得我们能够生成特定领域内非常逼真和自然的语音，几乎可以以假乱真。但是，这种令人惊叹的能力仍然受限于训练集是大量单一说话人且表现力不够丰富数据的的理想情况。对于多说话人和多风格的语音合成，特别是在真实环境录制或是低资源的情况下表现力和鲁棒性仍然不能令人满意。例如，仅拥有每个说话人非常少量的音频样本时，语音的质量和目标说话人的相似度、表现力和鲁棒性仍然不能令人满意。即便是现有公开的音色克隆方案，对集外数据的音色复刻缺乏鲁棒性。我们称这种有挑战性的任务为多说话人和多风格的语音克隆任务（M2VoC）。近年来，迁移学习、风格迁移，说话人编码和因素解耦方面的最新进展，为低资源语音克隆的提供了潜在的解决方案。作为2021年声学、语音和信号处理国际会议（）信号处理挑战旗舰任务之一，M2VoC挑战赛旨在提供一个通用的数据集以及一个公平的测试平台，对语音克隆任务进行研究。我们非常鼓励学术界和工业界的研究人员加入挑战，一起进行深入的讨论和合作。

我们设置了以下两个任务。

赛道1：少样本赛道

主办方将分别提供两个和三个说话人用于音色克隆的校验和最终测试。每个说话人有不同的说话风格和100个可用的音色克隆样例。主办方还将为参赛者提供一个多说话人语料库，可用来训练基础模型。目标说话人的测试集是一系列句子和短段落，用于针对目标说话人的文本到语音的生成。

子赛道1A：语音合成系统的搭建仅限于使用竞赛组织者提供的数据，禁止使用除此之外的数据。

子赛道1B：除了竞赛组织者提供的数据之外，可以使用任何公开数据搭建语音合成系统。但是在提交的系统描述中，应当明确说明使用的公开数据来源。

赛道2：极少样本赛道

主办方将分别提供两个和三个说话人用于音色克隆的校验和最终测试。每个说话人有不同的说话风格和5个可用的音色克隆样例。主办方还将为参赛者提供一个多说话人语料库，可用来训练基础模型。目标说话人的测试集是一系列句子和短段落，用于针对目标说话人的文本到语音的生成。

子赛道2A：语音合成系统的搭建仅限于使用竞赛组织者提供的数据，禁止使用除此之外的数据。

子赛道2B：除了竞赛组织者提供的数据之外，可以使用任何公开数据搭建语音合成系统。但是在提交的系统描述中，应当明确说明使用的公开数据来源。

2方案总结

本赛事由26支队伍，其中包括两只基准b01和b02队伍，以及24只学术界和产业界参加的队伍T01~T24。本部分的总结主要对参赛的队伍采用的方案总结：

1）声学模型：

参赛队伍的方案方案：(主流）、。

non-方案：系列主流

语音相关论文_语音小论文_

2）声码器：方案：(主流）、

non-方案：(主流）、

3）和style模型：主要是或者

4)和style自适用：和fine-p

3 大赛结果

图1展示本次大赛的所有结果。和是比较好的队伍情况，其中track 1方案较好为 + 或者 +。

4 总结

本文章总结了The M2voc 2021大赛的情况，其中主流方案为声学模型（,)+声码器(，hifi-gan)。不过对于zero-shot的情况还是不太理想。

tags: 语音说话克隆赛道合成

语音合成论文优选：M2voc大赛总结The M2voc Challenge 20

双层钛矿复合氧化物Sr2BBO6/钙钛矿氧化物

用AI解锁声音的奥秘——启英泰伦新成果发布交流会

世纪佳缘“传情神器”Miss U提前曝光

电话机器人怎么样

DOTATATE，177943-89-4

iConTek获600万美元A轮融资，伟高达领投

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

语音合成论文优选：M2voc大赛总结The M2voc Challenge 20

双层钛矿复合氧化物Sr2BBO6/钙钛矿氧化物

用AI解锁声音的奥秘——启英泰伦新成果发布交流会

世纪佳缘“传情神器”Miss U提前曝光

电话机器人怎么样

DOTATATE，177943-89-4

iConTek获600万美元A轮融资，伟高达领投

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡 已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡