the of with a Text-to-Text
谷歌 2020
论文地址:
概述
T5是一个统一的模型框架,将各类NLP任务都转化为任务(即无监督/有监督的文本生成预训练任务),使得这些任务在训练时能够使用相同的目标函数,在测试时使用相同的解码过程。
T5模型结构
与的-结构大致一致。
但主要有以下几点不同:
数据集
作者自己构造的数据集 C4: the Clean
输入输出格式
类似于显式的形式,人工设计了前缀来提示T5需要解决的任务类型,如图1所示。
一系列的实验
最后作者进行了一系列的实验确定了T5模型的最终结构和训练方式(有钱真好):
参考文献