首站-论文投稿智能助手
典型文献
基于空间关系与频率特征的视觉问答模型
文献摘要:
视觉问答作为多模态数据处理中的重要任务,需要将不同模态的信息进行关联表示.现有视觉问答模型无法有效区分相似目标对象且对于目标对象之间的空间关系表达不准确,从而影响模型整体性能.为充分利用视觉问答图像和问题中的细粒度信息与空间关系信息,基于自底向上和自顶向下的注意力(BUTD)模型及模块化协同注意力网络(MCAN)模型,结合空间域特征和频率域特征构造多维增强注意力(BUDR)模型和模块化共同增强注意力网络(MCDR)模型.利用离散余弦变换得到频率信息,改善图像细节丢失问题.采用关系网络学习空间结构信息和潜在关系信息,减少图像和问题特征出现对齐错误,并加强模型推理能力.在VQA v2.0数据集和test-dev验证集上的实验结果表明,BUDR和MCDR模型能够增强图像细粒度识别性能,提高图像和问题目标对象间的关联性,相比于BUTD和MCAN模型预测精确率分别提升了0.14和0.25个百分点.
文献关键词:
离散余弦变换;细粒度识别;关系网络;注意力机制;特征融合
作者姓名:
付鹏程;杨关;刘小明;刘阳;张紫明;成曦
作者机构:
中原工学院 计算机学院,郑州 450007;河南省网络舆情监测与智能分析重点实验室,郑州 450007;西安电子科技大学 通信工程学院,西安 710071
文献出处:
引用格式:
[1]付鹏程;杨关;刘小明;刘阳;张紫明;成曦-.基于空间关系与频率特征的视觉问答模型)[J].计算机工程,2022(09):96-104
A类:
BUTD,MCAN,BUDR,MCDR
B类:
空间关系,频率特征,视觉问答,多模态数据,相似目标,关系表达,影响模型,整体性能,细粒度信息,底向上,自顶向下,协同注意力,注意力网络,空间域,频率域,特征构造,同增,离散余弦变换,关系网络,网络学习空间,空间结构信息,潜在关系,对齐,模型推理,推理能力,VQA,v2,test,dev,验证集,增强图像,细粒度识别,识别性,问题目标,精确率,百分点,注意力机制,特征融合
AB值:
0.380146
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。