期刊首页 优先出版 当期阅读 过刊浏览 作者中心 关于期刊 English

《信息与电子工程前沿(英文)》 >> 2021年 第22卷 第5期 doi: 10.1631/FITEE.2000722

面向视觉常识推理的有向视觉连接

1天津大学智能与计算学部,中国天津市,300350;2天津市机器学习重点实验室,天津大学,中国天津市,300350;3悉尼科技大学计算机学院,澳大利亚悉尼市,2007

收稿日期: 2020-12-25 录用日期: 2021-05-17 发布日期: 2021-05-17

下一篇 上一篇

摘要

为推动认知层面视觉内容理解的研究,即基于视觉细节的深入理解做出精确推理,视觉常识推理的概念被提出。相比仅需模型正确回答问题的传统视觉问答,视觉常识推理不仅需要模型正确地回答问题,还需给出相应解释。最近关于人类认知的研究指出大脑认知可以看作局部神经元连接的全局动态集成,有助于解决特定的认知任务。受其启发,本文提出有向连接网络。通过使用问题和答案的语义来情景化视觉神经元从而动态重组神经元连接,以及借助方向信息增强推理能力,所提方法能有效实现视觉常识推理。具体地,首先开发一个GraphVLAD模块来捕捉能够充分表达视觉内容相关性的视觉神经元连接。然后提出一个情景化模型来融合视觉和文本表示。最后,基于情景化连接的输出设计有向连接来推断答案及对应解释,其中包含了ReasonVLAD模块。实验结果和可视化分析证明了所提方法的有效性。

相关研究