Interspeech2022 | 一种基于元辅助学习的低资源口语语义理解方法

2023-08-27 大全 32 作者：考证青年

中国移动研究院首席科学家冯俊兰博士带领人工智能与智慧运营中心语音团队共同撰写的文章《Meta for Low- 》被语音国际顶会接收。

关于

是国际最大且最全面关于言语科学与技术的盛会，由国际语言交流协会（）主办，与并列为语音领域两大顶级会议。

论文摘要

口语语义理解（SLU）将自动语音识别（ASR）和自然语言理解（NLU）视为一个一体化任务，通常存在数据不足的问题。我们提出一种基于元辅助学习的ASR和NLU联合训练方法，通过仅利用丰富的语音识别标注数据来改善低资源SLU任务的性能。该方法提供了一个灵活的框架来实现低资源SLU训练任务，无需语义标签参与进一步训练。具体而言，我们将NLU模型作为标签生成网络，从文本中预测意图和槽位信息；另一方面，构建多任务网络，基于语音同步训练ASR任务和SLU任务，将标签生成网络的预测值作为语义标签传递给多任务网络中的SLU任务，从而实现在没有语义标签情境下的SLU训练。在公共数据集上的实验证明了该算法的有效性，该方法生成了更适合下游任务NLU的ASR假设。

01 背景

口语语义理解（SLU）将ASR和NLU联合训练需要大量包含语义标签的语音数据才能取得理想的效果。一种解决方法是基于迁移学习的方式，基于大规模预训练模型弥补低资源语言语料不足的缺陷，或采用老师-学生模型将资源相对丰富的NLU模型蒸馏给SLU模型。另一种解决方法是采用语音合成的方式构建语音-语义数据对，从而实现对数据进行增广。还有一种方法是引入额外信息作为新的输入或者辅助任务。辅助任务或多任务的方式，仍然需要辅助任务的标签才能进行训练。

我们提出了基于元辅助学习MAXL（Meta ）的SLU建模方案，避免了SLU训练过程中语义标签的参与。

02模型与方法

图一基于MAXL的SLU建模

如图一所示，我们提出的模型包含两部分：1）多任务网络：同步学习ASR和SLU两个任务；2）标签生成网络（NLU）：为SLU任务预测语义标签。多任务网络的输入是语音信号，NLU网络的输入是语音内容的文本标注（语音识别标注文本）。NLU的输出为语义预测结果，通过接口层的处理传递给SLU输出层作为预测目标。在推理阶段，由于接口层使输出结果可导的处理，使SLU无法直接输出可读的结果，因此我们将ASR的预测结果1-best输入给NLU模型得到最终的语义预测。这样建模的ASR结果更适用于下游任务NLU，同时，NLU模型性能也得到提升。

2.1 接口层

标签生成网络的输出是由一系列“意图-槽位键-槽位值”三元组组成的列表，长度不固定且无法预置。但多任务网络的输出长度需要每个批次固定。另一方面，标签生成网络的输出需要支持梯度回传从而实现标签生成网络的更新。因此，在输出端之后不能进行取最大值操作，因为这样会破坏网络求梯度。我们从两个方面考虑了接口层的设计：定长和可导。

如表1所示：

表1：两个网络之间接口类型及其属性

_基于语义理解的搜索引擎_语言辅助属于哪种辅助

2.2 模型训练

模型训练分为两步：在每个epoch内部，首先进行普通多任务学习的训练，ASR标签为人工标注的语音内容，SLU标签为NLU预测的结果。这一步骤使ASR更关注语义相关的部分。损失函数为：

其中，i为批次索引，x为语音输入，y_asr为语音识别文本标签，为多任务网络f的参数，为标签生成网络g的参数。

第二步为NLU网络的更新，通过ASR的损失实现。由于二阶导数的存在，引入算法进行近似求解，从而使网络学习速度提升4~6倍。损失函数为：

其中，K为NLU输出维度，N为批大小。

03 实验结果

我们首先对比了所提方法与其他方法，如表2所示，基线系统ASR由6000小时普通话训练得到，NLU模型由-MAP文本训练。可以看到，基线系统由于ASR识别结果不理想导致NLU的F1-score也偏低。端到端训练使ASR和NLU性能均得到一定提升。使用-MAP数据微调ASR模型可以使CER显著降低，F1值绝对提升4.33%。MAXL是标准元辅助学习的算法，First-order是采用加速训练的结果，可以看到二者均获得了较好的NLU预测结果。最后为了进一步验证NLU的性能，我们对比了直接用真实语义标签进行多任务学习的结果，可以看到First-order仍然取得了相当的结果，这一方面验证了NLU作为标签预测器是可信的，另一方面也验证了用ASR损失训练NLU是有正向收益的。

表2：本文方法与其他方法对比

由表2我们看到即使ASR性能提升有限，NLU性能也有可能获得较大提升，这说明ASR输出更适于下游NLU任务了。为了进一步验证该结论，我们采用训练集得到的ASR输出重新训练了NLU，由表3可以看到该NLU性能已经和用人工标注的ASR文本训练得到NLU性能相似（表2，Fine-tuned）。

表3：训练集ASR性能CER和NLU性能

表4我们对比了不同接口的性能，可以看到几种接口性能接近，但是可导的接口（，）仍然可以获得较好的性能，而且NLU预测网络性能的提升，也说明该网络即使没有语义标签，也从多任务网络的学习中得到了收益。

表4：不同接口性能对比。

（, , , 分别表示、NER tag、Sum of 、 and slot types）

表5显示出预训练对模型的影响，可以看到ASR和NLU有预训练模型会取得更优的效果，尤其NLU模块预训练起极其关键的作用。

表5：未使用预训练模型结果

为了验证该方法在无标数据的作用，我们只使用了一半带语义标签的文本数据进行NLU模型预训练，剩余一半进行无语义标签的MAXL训练。由表6可以看出，在没有语义标签参与训练的情况下，模型语义预测性能仍能得到提升。

表6：只使用一半语义标签进行NLU模型预训练另一半进行无语义标签的MAXL训练结果

04 总结

本文提出了一种基于MAXL的SLU建模方案用于降低模型对带语义标签的语音数据的需求。ASR和NLU的联合训练提高了ASR的质量，并成功实现从有监督任务中为无监督任务提取知识，实现没有语义标签参与训练时NLU性能提升。该结果与我们的假设相一致，即：ASR和NLU之间的作用是双向的，ASR输出会影响NLU性能，同样NLU预测结果也应该反馈给ASR去引导它的预测。下一步我们将尝试将该方法用于更多数据集以及更复杂的网络结构。

供稿 | 九天语音团队

tags: 标签模型语义语音训练

Interspeech2022 | 一种基于元辅助学习的低资源口语语义理解方法

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

用AI解锁声音的奥秘——启英泰伦新成果发布交流会

李飞飞两位高徒联合指导：能看懂「多模态提示」的机器人，zero

论文笔记——Deep Residual Learning for Image R

On the Opportunities and Risks of Founda

科技云报道：数智化这道升维题，云计算能答好吗？

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

Interspeech2022 | 一种基于元辅助学习的低资源口语语义理解方法

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

用AI解锁声音的奥秘——启英泰伦新成果发布交流会

李飞飞两位高徒联合指导：能看懂「多模态提示」的机器人，zero

论文笔记——Deep Residual Learning for Image R

On the Opportunities and Risks of Founda

科技云报道：数智化这道升维题，云计算能答好吗？

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡 已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡