首页 >> 大全

tts什么意思中文翻译(解说tts定义及其使用方法)

2022-06-28 大全 239 作者:考证青年

语音交互的三驾马车:ASR、NLP、TTS

01 语音交互的构成

我们以智能音箱为例开始今天的讨论:

假设我们对智能音箱天猫精灵说:“播放一首周杰伦的《晴天》。天猫精灵会说,“好的,我马上给你播放周杰伦的《晴天》,然后开始播放音乐。

猫精灵在这个过程中做了什么?

天猫精灵首先将听到的声音转化为文本,然后理解内容,最后做出相应的策略,将响应策略转化为语音。

因此,语音交互可以分为以下三个模块:

语音交互的三驾马车:ASR、NLP、TTS

我们将在下面详细介绍每个模块。

02 语音识别 (ASR)

一般来说,语音识别有两种方法:

这两种方式都需要经过“输入-编码-解码-输出”的过程。

2.1 种编码

编码就是将声音转换成机器可以识别的模式,即用数字向量表示。

语音交互的三驾马车:ASR、NLP、TTS

电脑无法直接识别输入的声音信号。首先需要将声音信号切成小段,然后将每个段按照一定的规则用一个向量表示。

2.2 解码

解码是将数字向量拼接成文本的形式。

语音交互的三驾马车:ASR、NLP、TTS

首先将编译好的向量放入声学模型中,即可得到每个小段对应的字母;

然后,将翻译后的字母通过语言模型后,就可以组装成单词了。

当然,声学模型和语言模型也是神经网络,是通过大量的语音和语言数据训练出来的,这里就不多说了。

这是一场头脑风暴:

神经网络能不能做到,不需要编码和解码的过程,不需要声学和语言模型。声音信号直接丢入神经网络进行训练,最终输出为文本。具体的中间过程是什么?让机器自己学习。我觉得如果能实现就很酷了,是不是看起来很聪明。

03 自然语言处理 (NLP)

NLP 是语音交互中最核心也是最难的模块。

NLP主要涉及以下技术:文本预处理、词法分析、句法分析、语义理解、分词、文本分类、文本相似度处理、情感分析、文本生成等。所涉及的技术越来越复杂。下面简单说一下主要的技术点。

3.1 文本预处理

1)去噪:

只要与输出无关,我们就称之为噪声,比如空格、换行符、斜杠等。

去噪后,文本变得更加规范化,没有各种乱七八糟的符号,这对后续处理非常重要。

2)字规范化

这在处理英文文本时比较常用,比如“play”、“”、“”、“plays”和“”是“play”的各种表示。虽然它们的含义不同,但上下文相似,这些不同形式的词都可以归一化。

规范化是文本特征工程中的关键步骤,因为它将高维特征(N 个不同的特征)转换为低维空间。

3.2 词法分析

1)分词

分词就是把一个句子分成多个词。

例如:输入“明天深圳的天气怎么样?”,句子将分为“明天/深圳/的/天气/怎么样”。其中“明天”、“深圳”、“天气”是这句话的关键词,内容是通过关键词来匹配的。

2)实体识别

实体提取:是指提取文本中特定的、特定类型的实体,如人名、地名、数值、专有名词等。

例如:输入“詹姆斯在NBA打了多少年”,其中​​“詹姆斯”是实体词,计算机或许可以给出詹姆斯在NBA的出场年龄,通过当前时间和当詹姆斯加入了 NBA。

实体识别广泛应用于信息检索、自动问答、知识图谱等领域。目的是告诉计算机该词属于某类实体,有助于识别用户的意图。

3.3 文本分类

主要目的是对文档(文章)的主题进行分类,比如属于经济、体育、文学等。

解决文案分类问题,比较经典的算法是TF-IDF算法。

TF-IDF的主要思想是:如果一个词或词组在一篇文章TF中出现频率很高,而在其他文章中很少出现,则认为这个词或词组有很好的类别区分能力,适合分类。

不要说“NBA”这个词在一篇文章中出现的频率更高,而在其他文章中却很少出现,那么这篇多次出现“NBA”这个词的文章很可能是一篇体育文章。

3.4 文本相似度处理

文本相似度也俗称文本距离,指的是两个文本之间的距离。文本距离越小,相似度越高;距离越大,相似度越低。

例如:用户输入“这件衣服多少钱”或者“这件衣服怎么卖”,都是很通俗的句子,那么如何将“衣服的价格”返回给用户呢?它基于文本相似度。

我们需要计算“多少”、“怎么卖”和“价格”的相似度,然后根据相似度匹配最佳答案。

应用场景:推荐、排序、智能客服、自动打标等。解决之前关键字匹配准确的问题,识别语义,扩大应用范围。

3.5 情绪分析

情感倾向分析主要分为情感倾向分类和观点抽取两大类。

1)情感倾向分类

情感取向分类是识别文本的情感取向,如:负面、正面、中性。

例如:“这家餐厅好,服务好,价格便宜”,整句话就是好评。

情感倾向分类对于标记用户和向用户推荐内容或服务有更好的效果。

2)视点提取

观点提取就是从句子中提取观点。

还是那句“这家餐厅不错,服务态度好,价格便宜”,其中“服务态度好”和“价格便宜”是意见词。

意见提取对于建立服务或内容的评价体系具有重要意义。

3.6 当前困难

1)不规则语言

语音交互的三驾马车:ASR、NLP、TTS

虽然我们目前可以总结出一些通用的规则,但是自然语言实在是太灵活了。同一个词在不同场景下可能表达多种意思,无论是通过理解自然语言规则还是通过机器学习,都比较困难。

2)错别字

语音交互的三驾马车:ASR、NLP、TTS

在处理文本的时候,你会发现很多错别字。如何让机器知道这些错别字并改正,也是NLP的一大难点。

3)生词

语音交互的三驾马车:ASR、NLP、TTS

在互联网高速发展的时代,每天都有大量的生词在互联网上产生。如何快速发现这些新词并让机器理解它们也很重要。

04 语音合成 (TTS)

实现TTS有两种成熟的方法:“拼接法”和“参数法”。

4.1种拼接方法

首先准备大量语音,拼接成基本单元(音节、音素等基本单元),然后从准备好的语音中提取合成目标语音。

4.二参数法

根据统计模型生成每时每刻的语音参数(包括基频、共振峰频率等),然后将这些参数转换成波形。

4.3 其他方法

郑重声明:本文版权归原作者所有,转载文章仅出于传播更多信息之目的。如果作者信息标注有误,请尽快联系我们修改或删除,谢谢。

关于我们

最火推荐

小编推荐

联系我们


版权声明:本站内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88@qq.com 举报,一经查实,本站将立刻删除。备案号:桂ICP备2021009421号
Powered By Z-BlogPHP.
复制成功
微信号:
我知道了