干货!基于部分-整体关系的概念、关系和物理场景认知推理
AI TIME欢迎每一位AI爱好者的加入!
人类视觉感知的一个关键方面是能够将视觉场景解析为单个对象并进一步分解为对象部分,形成部分-整体层次结构。这种复合结构可以产生丰富的语义概念和关系,从而在视觉信号的解释和组织以及视觉感知和推理的泛化中发挥重要作用。
然而,现有的视觉推理基准主要关注对象而不是零件。由于更细粒度的概念、更丰富的几何关系和更复杂的物理,基于完整部分-整体层次结构的视觉推理比以对象为中心的推理更具挑战性。
因此,为了更好地服务于基于部分的概念、关系和物理推理,我们引入了一个名为 PTR 的新的大规模诊断视觉推理数据集。PTR 包含大约 70k RGBD 合成图像,其中包含关于语义实例分割、颜色属性、空间和几何关系以及某些物理属性(如稳定性)的地面实况对象和部分级别注释。这些图像与涵盖各种推理类型的 70 万个机器生成的问题配对,使其成为视觉推理模型的良好测试平台。
我们在这个数据集上检查了几个最先进的视觉推理模型,并观察到在人类可以轻松推断出正确答案的情况下,它们仍然会犯许多令人惊讶的错误。我们相信这个数据集将为基于部分的推理开辟新的机会。
目前在AI领域的一个挑战是。如何让机器像人类一样通过场景回答问题,即 Ttask。
本期AI TIME PhD直播间,我们邀请到加州大学洛杉矶分校的博士生——洪逸宁,为我们带来报告分享《基于部分-整体关系的概念、关系和物理场景认知推理》。
洪逸宁:
加州大学洛杉矶分校博士生,师从朱松纯教授,MIT-IBM AI Lab实习生,2019年毕业于上海交通大学,研究方向为多模态认知推理,曾在ICML、 、ICCV、ECCV等会议上发表文章。
CLEVR -
我们发现一系列模型在CLEVR数据集上已经达到了饱和。
这个一数据集不仅是完全可控的,而且具有较少的bias,同样因为容易将模型分解开而便于诊断我们的模型在每一个模块会有什么问题。
所以我们提出以下问题:接下来,对于诊断性的视觉推理,我们需要做些什么?我们随之提出了The PTR 。
1
What’s next for ?
The PTR
The PTR 数据集包含70k的图片和700k的问题,我们有以下5种数据类型,包括:
同时,我们尽量去控制bias,并提出了一些诊断性的标注:比如我们提供了物体的一些mask,同时提出每个可以拆解成多个方便我们去诊断模型。
The PTR
我们会有一些物体,比如椅子、桌子、床。物体之间存在着一定关系和物理属性,比如方向和是否稳定、平衡。
同时,每个物体也会有一些部分,比如椅子会有平面、靠背和椅子腿。
接下来,我们展示一下中的。
2
The PTR -
对于概念型问题,比如在下图中多少物体有紫色的腿?
对于关系型问题,可以有以下: What is the color of the part in the chair that can be a line, and is to the part of the ?
对于类比型问题,可以有以下: the thing with five legs has to the with blue seat. By , how many does the bed have the same to ?
我们先找到具有5条腿的红色椅子,之后又发现了床。通过类比,我们得到最终的答案是2。
对于数字题,可以有以下: What is the sum of the of legs in the chair,and of in the cart?
对于数字题,可以有以下: which shall the cart move to ?
front!
3
下面我们来看下实验结果。
我们发现在过去的数据集上都不能取得较好的结果。
这些数据集表现不好,也同时说明我们的数据集提出了一个非常具有挑战性的问题。
Data
我们也做了一些跨类别的泛化实验。
Cross-
我们可以看到,NS-VQA可以表现出比较好的泛化能力。
on NS-VQA
同时,我们还做了一个 Study:假设我们提供了,那么NS-VQA会表现得如何?
我们可以看到,我们提供的这些在较难的问题类型中还是不能够达到一个很好效果。这也说明我们数据集提出的问题也是更多在考量模型能否真正做一个和人类一样的推理。
4
提
醒
论文题目:
PTR: A for Part-based , , and
论文链接: