GPT2网络结构

2023-11-08 大全 38 作者：考证青年

进阶 - GPT2 – 潘登同学的NLP笔记

文章目录 GPT2网络结构 Bert与GPT2的区别Bert与GPT2的区别

GPT2网络结构

Bert是用了的层，而GPT2则是采用了的层，最大的模型采用了48层

预训练任务机器翻译

进行翻译时，模型不需要。同样的任务可以通过一个只有的来解决:

自动摘要生成

这是第一个训练只包含解码器的的任务。也就是说，该模型被训练来阅读维基百科的文章（没有目录前的开头部分），然后生成摘要。文章实际的开头部分被用作训练数据集的标签,论文使用维基百科的文章对模型进行了训练，训练好的模型能够生成文章的摘要：

阅读理解

_结构网络和非结构网络的区别_结构网络卒中后认知障碍

给出一段内容，给出，最后写一个的起始符，将回答作为label

Zero-shot,One-shot,Few-shot

参考知乎算法攻城狮周俊贤

首先解释下什么是Zero-shot、One-shot、Few-shot，其实就是小样本学习

Zero-shot

应用到英语翻译法语任务，首先给一句话描述任务是英翻法，然后给待翻译的英语，最后通过语言模型的方法生成对应的法文，如下图

One-shot

One-shot场景相对于Zero-shot场景多了一条数据，按理来说，多了一条数据，模型的效果应该会更好

这里再把语言模型类比成一个博览群书的人，虽然这个人很厉害，但你给他一些具体任务让他解决时，他还是会蒙蔽，例如我现在叫这个人做一个情感分析的任务，输入"请给下面影评做情感分析，判断正面还是负面：这个电影有点冗长，但是画面还是不错的，属于__"。这个人是蒙的，即使他博览群书，但他不知道评价标准，这句话即有正面的因素，也有负面的因素，究竟是分到正面还是负面好？但这时候，你给任务的时候，顺便给多一个参考案例，输入变成“请给下面影评做情感分析，判断正面正面还是负面：这个电影剧情很差，幸好选的演员把电影撑起来了，属于正面。这个电影有点冗长，但是画面还是不错的，属于__” ，这时候，这个博览群书的人就知道该把这个样本分到正面了。

Few-shot

Few-shot，就是给多几个案例，如下图

问题来了

为什么GPT2能通过只学习语言模型(就是自监督学习)，学到这些根本就没有样本的任务呢？GPT2、GPT3论文观点是只要训练语料足够大、足够丰富，模型参数足够多，模型能学习到如最常见的词法、语义、指代消解、角色标注，甚至一些具体的任务，如情感分析、阅读理解、对话、翻译等具体任务，是的，没看错，意思是，即使不做下游任务的fine ，语言模型在预训练的时候就能学到这些能力。虽然有一些是通过隐式学习到的。

只要语料足够丰富，模型就能可能学习到英语-中文、西班牙语-德文、韩语-日文等等等等的互译技能。

但是你说他的效果怎么样，肯定不能直接应用下游任务，肯定要进行fine-tune…

Bert与GPT2的区别

你说他的效果怎么样，肯定不能直接应用下游任务，肯定要进行fine-tune…

Bert与GPT2的区别

tags: 模型负面样本应用电影

GPT2网络结构

云服务器nginx部署静态网站,云服务器nginx部署静态网站

蓝队攻击的四个阶段（三）

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

拟牛顿法算法的设计与实现c语言,[zz]拟牛顿法，DFP算法，及BFGS算法

李飞飞两位高徒联合指导：能看懂「多模态提示」的机器人，zero

论文笔记——Deep Residual Learning for Image R

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

GPT2网络结构

云服务器nginx部署静态网站,云服务器nginx部署静态网站

蓝队攻击的四个阶段（三）

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

拟牛顿法算法的设计与实现c语言,[zz]拟牛顿法，DFP算法，及BFGS算法

李飞飞两位高徒联合指导：能看懂「多模态提示」的机器人，zero

论文笔记——Deep Residual Learning for Image R

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡 已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡