太阳集团娱乐网址7777 - 太阳集团7777正版

马鞍山特尔特软件全体员工欢迎您

登录    注册

太阳成集团tyc7111cc

当前位置

ICLR 2020|MIT、DeepMind等联合发布CLEVRER数据集,推动视频理解因果逻辑推理

发布于:2020-04-28

分享到:

作者:机器之心 链接:https://zhuanlan.zhihu.com/p/135323240 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 从视频的物理事件中识别物体并推断其运动轨迹的能力是人类认知发展的核心。人类,即使是幼儿,也能够通过运动将图片区域划分为多个物体,并使用物体的永久性、实体性和连贯性的概念来解释发生了什么,推断将发生什么以及想象在反事实情况下会发生什么。在静态图像和视频上提出的各种数据集的推动下,复杂视觉推理问题已经在人工智能和计算机视觉领域得到了广泛研究。然而,大多数视频推理数据集的侧重点是从复杂的视觉和语言输入中进行模式识别,而不是基于因果结构。尽管这些数据集涵盖了视觉的复杂性和多样性,但推理过程背后的基本逻辑、时间和因果结构却很少被探索。在这篇论文中,麻省理工和 DeepMind 的研究者从互补的角度研究了视频中的时间和因果推理问题。受视觉推理数据集 CLEVR 的启发,他们简化了视觉识别问题,但增强了交互对象背后的时间和因果结构的复杂度。结合从发展心理学中汲取的灵感,他们提出了一种针对时间和因果推理问题的数据集。CLEVRER研究者将这个数据集称为基于碰撞事件的视频推理(CLEVRER)。CLEVRER 的设计遵循两个准则:首先,发布的任务应侧重于在时间和因果上的逻辑推理,同时,保持简单以及在视觉场景和语言上出现的偏差最小;其次,数据集应完全可控并正确标注,以承载复杂的视觉推理任务并为模型提供有效的评估。CLEVRER 包含 20,000 个关于碰撞物体的合成视频以及 300,000 多个问题和答案。问题的类型包括以下四种,如下图所示:

来源:中山日报

相关推荐