光熙论坛第767期:基于图文信息融合的跨模态检索方法研究

2022-05-18 09:57

主讲人:张力 哈工大计算学部博士研究生

时间:20220517 21:00~22:00

地点:腾讯会议ID: 585-677-417

研究方向:跨模态检索

内容简介:

随着多媒体技术的飞速发展,互联网上存在着大量的信息,如图像、文本、视频、音频等,手动获取海量数据中各种形式的有用信息变得越来越困难。因此,我们需要一种强大的工具来帮助我们获取所需的文本、图像或视频。跨模态检索以某个模态的数据作为查询,检索另一模态中与之相关的数据。例如,我们可以使用文本检索感兴趣的图像,或者使用图像检索相应的文本。

我们提出了一种基于特征分离与重构(mFSR)的跨模态检索多任务框架。mFSR将来自不同模态空间的特征向量分解为三部分:模态信息、语义信息和特定信息。对于模态信息,mFSR构造了模态损失函数,要求所有图像(文本)的模态信息应尽可能一致,并且任何图像和任何文本的模态信息应尽可能一致。对于语义信息,mFSR利用跨模态检索中常用的损失函数来训练图像和文本分支。对于特定信息,mFSR通过强制图像(文本)语义信息向量和图像(文本)特定信息向量之间的相似度尽可能低来构造特定损失函数以实现特征分离的目的。最后,mFSR构造图像和文本重建任务,分别结合图像和文本的三种不同信息,通过多任务联合学习提高跨模态检索任务的性能。

我们提出了用于跨模态检索的堆叠GCN匹配网络(StackGCN)。具体来说,对于复杂场景,不仅对局部(结构)片段之间的关系进行建模,而且还提出堆叠GCN来建模多个局部片段之间(即复合片段)更复杂的语义关系,并通过融合局部片段匹配,结构片段匹配和复合片段匹配更充分地反映了图像文本对之间的相似性,提高跨模态检索任务的性能。

我们拟在现有基于场景图匹配的跨模态检索方法的基础上,参考图像场景图生成的相关工作,不仅能识别出图像中包含的目标,还能估计目标之间可能存在的关系。在较为清晰地得到图像中的目标,关系和属性之后,在此基础上尝试构造高质量的图像场景图。然后用图像场景图与文本场景图进行场景图层级的匹配,用于跨模态检索任务。