文本嵌入的经典模型与最新进展（下载PDF）

2023-06-23 大全 46 作者：考证青年

对通用嵌入的追求是一大趋势：在大型语料库上预训练好的嵌入，可以插入各种下游任务模型（情感分析、分类、翻译等），通过融合一些在更大的数据集中学习得到的常用词句表示，自动提高它们的性能。

这是一种迁移学习。最近，迁移学习被证明可以大幅度提高 NLP 模型在重要任务（如文本分类）上的性能。和 Ruder () 的工作就是一个最好的例子。（）

虽然句子的无监督表示学习已经成为很长一段时间的规范，但最近几个月，随着 2017年末、 2018 年初提出了一些非常有趣的提议，无监督学习已经有转向有监督和多任务学习方案的趋势。

通用词/句子嵌入的最新趋势。在这篇文章中，我们描述了用上图中黑体字的模型。

因此，这篇文章简要介绍了通用词和句子嵌入的最新技术：

我们先从词嵌入开始。如果你想对 2017 年之前发生的事情有一些背景知识，我推荐你去看去年写过的关于词嵌入的一篇很好的文章（）和入门介绍帖（）。

词嵌入的最新发展

在过去的五年里，人们已经提出了大量可能的词嵌入方法。最常用的模型是和 GloVe，它们都是基于分布假设的无监督学习方法（在相同上下文中的单词往往具有相似的含义）。

虽然有些人通过结合语义或句法知识的有监督来增强这些无监督的方法，但纯粹的无监督方法在 2017-2018 中发展非常有趣，最著名的是（的扩展）和 ELMo（最先进的上下文词向量）。

（）是 2013 年提出了框架的Tomas 团队开发的，这引发了关于通用词嵌入研究的爆炸式增长。对原始向量的主要改进是包含了字符 n-gram，它允许为没有出现在训练数据中的单词计算单词表示。

向量训练速度超快，可在 157 种语言的和 Crawl 训练中使用。这是一个很好的基线模型。

深度语境化的单词表示 (ELMo，) 最近大幅提高了词嵌入的顶级水平。它由 Allen 研究所开发，将于 6 月初在 NAACL 2018会议上发布。

ELMo对上下文语境了解很多

在ELMo 中，每个单词被赋予一个表示，它是它们所属的整个语料库句子的函数。所述的嵌入来自于计算一个两层双向语言模型（LM）的内部状态，因此得名「ELMo」： from 。

ELMo的特点：

现在，让我们谈谈通用句子嵌入。

通用句子嵌入的兴起

目前有很多有竞争力的学习句子嵌入的方案。尽管像平均词嵌入这样的简单基线始终效果不错，但一些新颖的无监督和监督方法以及多任务学习方案已于 2017 年末至 2018 年初出现，并且引起了有趣的改进。

让我们快速浏览目前研究的四种方法：从简单的词向量平均基线到无监督/监督方法和多任务学习方案。

在这一领域有一个普遍的共识，即直接平均一个句子的词向量（即所谓的「词袋」方法）的简单方法为许多下游任务提供了一个强大的基线。

Arora 等人的工作详细介绍了计算这种基线的一个很好的算法。去年在 ICLR 上发表了一个简单但有效的句子嵌入基线：使用你选择的热门词嵌入，在线性加权组合中对一个句子进行编码，并执行一个通用组件移除（移除它们的第一主成分上的向量）。这种通用的方法具有更深入而强大的理论动机，它依赖于一个使用语篇向量上的生成模型的随机游走来生成文本。（在这里我们不讨论理论细节）

最近一个强大的 Bag-of-Word 基线（甚至比 Arora 的基线更强）的实现是来自达姆施塔特大学的串联 p-mean 嵌入，它的地址是。

的对话框袋的字。 Bag-of-Words 接近宽松的单词排序，但保留了惊人数量的语义和句法内容。

来源：有趣的 ACL 2018论文。

除了简单的平均，第一个主要的建议是使用无监督的训练目标，从 Jamie Kiros 和他的同事在 2015 年提出的 Skip- 向量开始。

无监督方案将句子嵌入学习作为学习的副产品，以预测句子内连贯的句子顺序或句子中连贯的连续从句。这些方法可以（理论上）使用任何文本数据集，只要它包含以连贯方式并列的句子/子句。

Skip-向量（）是学习无监督句子嵌入的典型例子。它可以作为为词嵌入而开发的 skip-gram 模型的句子等价物：我们试着预测一个句子的周围句子，而不是预测单词周围的单词。该模型由基于 RNN 的编码器 – 解码器组成，该解码器被训练用于重构当前句子周围的句子。

Skip-论文中有一个有趣的见解是词汇扩展方案：Kiros 等人在训练过程中，通过在 RNN 词嵌入空间和一个更大的词嵌入(如)之间进行线性变换，来处理未见过的单词。

Quick-向量（）是今年在 ICLR 上发布的 Skip- 向量的最新发展。在这项工作中，预测下一句话的任务被重新定义为一个分类任务：解码器被一个分类器所取代，该分类器必须在一组候选者中选择下一句。它可以被解释为对生成问题的一种判别近似。

该模型的一个优势是其训练速度（与 Skip- 模型相比有数量级的提升）使其成为开发大量数据集的有竞争力的解决方案。

Quick-分类任务，分类器必须从一组句子嵌入中选择以下句子

来源：等人的「学习语句表达的有效框架」

在很长一段时间里，监督学习句子嵌入被认为是比无监督的方法提供更低质量的嵌入，但是这个假设最近被推翻，部分是在推论结果的发布之后。

与之前详述的无监督方法不同，监督学习需要标注数据集来标注某些任务，如自然语言推理（如一对限定句）或机器翻译（如一对译句），构成特定的任务选择的问题和相关问题的数据集的大小需要质量好的嵌入。在讨论这个问题之前，让我们看看 2017 年发布的突破的背后是什么。

因其简单的体系结构，（）是一个有趣的方法。它使用句子自然语言推理数据集（一组 570k 句子对标有3个类别：中性，矛盾和隐含）来在句子编码器之上训练分类器。两个句子都使用相同的编码器进行编码，而分类器则是根据两个句子嵌入构建的一对表示进行训练。等人采用双向 LSTM 完成最大池化的操作器作为句子编码器。

从NLI数据集中学习的监督句子嵌入模型（）

资料来源：A. 等人的「自然语言推理数据中通用句子表示的监督学习」

除了通常的寻找最佳神经网络模型的探索之外，的成功还提出了以下问题:

什么样的监督训练任务能获得更好泛化到下游任务中的句子嵌入？

多任务学习可以看作是 Skip-，和相关的无监督/监督学习方案的泛化，它通过试图在训练方案中结合几个训练目标来回答这个问题。

最近几个关于多任务学习的提议于2018年初发布。让我们简要的看一下MILA / MSR 的通用句子表示和的通用句子编码器。

在 MILA 和的ICLR 2018论文（ via Large Scale Multi-Task ，）中，等人观察到，为了能够泛化到各种不同的任务中，对同一句子的多个方面进行编码是必要的。

因此，作者利用一对多的多任务学习框架，通过在多个任务之间切换来学习通用句子嵌入。选择的 6 个任务（Skip- 模型预测上下文、神经网络机器翻译、句法分析和自然语言推理）共享了由双向 GRU 获得的相同的句子嵌入。实验表明，当添加多语言神经机器翻译任务时，可以更好地学习语法属性，通过解析任务学习长度和词序并且训练自然语言推断编码语法信息。

的通用句子编码器（），于2018年初发布，采用相同的方法。他们的编码器使用一个转换网络，该网络经过各种数据源和各种任务的训练，目的是动态地适应各种自然语言理解任务。他们也给提供了一个预训练的版本。

总结

tags: 自然语言处理机器学习文本分类监督学习文本分析

文本嵌入的经典模型与最新进展（下载PDF）

欧洲核子研究组织如何预测新的流行数据集

时空图卷积网络STGCN用于交通预测的深度学习框架python程序源代码+设计文

程序员能熬过中年危机？我劝你尽早转行！

【Reading Notes】（2）

吴恩达-coursera-机器学习测试题第十五章-异常检测

机器学习:完全线性可分/近似线性可分/非线性可分的支持向量机

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

文本嵌入的经典模型与最新进展（下载PDF）

欧洲核子研究组织如何预测新的流行数据集

时空图卷积网络STGCN用于交通预测的深度学习框架python程序源代码+设计文

程序员能熬过中年危机？我劝你尽早转行！

【Reading Notes】（2）

吴恩达-coursera-机器学习测试题第十五章-异常检测

机器学习:完全线性可分/近似线性可分/非线性可分的支持向量机

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡 已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡