论文笔记--ERNIE

2023-12-09 大全 29 作者：考证青年

论文笔记--ERNIE-ViL: - Scene 4. 文章亮点5. 原文传送门6.

1. 文章简介 2. 文章概括

文章提出了一种基于Scene Graph (SGP)来进行多模态模型预训练的方法，得到预训练模型ERNIE-ViL。实验证明，ERNIE-ViL在多个NLP任务中达到了SOTA水平，且在VCR任务上实现3.7%的提升，表明SGP预训练目标对“需求模型理解详细语义对齐”的任务有显著的帮助。

3 文章重点技术 3.1 模型架构

文章的目的是训练一个多模态模型。常用的多模态模型训练方法包括统一的视觉-文本模型和双流两类。文章选用的是双流跨模态。具体来说，

3.2 Scene Graph (SGP)

首先简要介绍下Scene Graph(SG)的概念。Scene Graph指包含视觉场景的结构化知识，其中graph的节点为图像中的目标（对应目标检测中的目标），边为目标之间的关系。Scene graph中包含了很多语义信息。参考.0[1]模型知识掩码的思想，ERNIE-ViL将SG中的信息进行掩码和预测，具体包含目标预测、属性预测和关系预测三个目标，如下图左边所示

首先文章通过已有的Scene Graph 工具从文本中提取出SG，如上图右边所示。具体来说，给定句子 w w w，SG可表示为 G ( w ) = < O ( w ) , E ( w ) , K ( w ) > G(w) = G(w)=，其中 O ( w ) O(w) O(w)为句子 w w w中出现的目标集合， E ( w ) E(w) E(w)为句子中出现的目标之间关系集合， K ( w ) K(w) K(w)为句子中出现的目标的属性集合。

接下来文章通过三个预测任务来学习SG中出现的高级知识

4. 文章亮点

读书笔记论文__论文做笔记

文章提出了ERNIE-ViL模型，首次将Scene Graph知识引入到预训练的多模态模型，在包括VCR等下游任务中超过SOTA。

5. 原文传送门

ERNIE-ViL: - Scene

[1] 论文笔记–ERNIE 2.0: A Pre- for

[2] 论文笔记–BERT: Pre- of Deep for

tags: 模型文章笔记预测论文

论文笔记--ERNIE

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

李飞飞两位高徒联合指导：能看懂「多模态提示」的机器人，zero

论文笔记——Deep Residual Learning for Image R

On the Opportunities and Risks of Founda

神经网络图像预测方法,神经网络预测结果分析

水淼万能文章采集器：撰写不再烦恼

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

论文笔记--ERNIE

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

李飞飞两位高徒联合指导：能看懂「多模态提示」的机器人，zero

论文笔记——Deep Residual Learning for Image R

On the Opportunities and Risks of Founda

神经网络图像预测方法,神经网络预测结果分析

水淼万能文章采集器：撰写不再烦恼

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡 已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡