AI研习丨基于结构化视觉语义分析的场景理解研究

AI百科4周前发布 快创云
18 0

  摘 要:

  本文聚焦于图像和视频中的场景理解问题,围绕结构化的视觉语义分析展开研究。通过探究场景图像中多语义标签间的关联,构建了场景语义图模型,并在跨模态多媒体检索、视觉数据的自然语言描述及视频行为理解等多个领域实现了应用,提出了新的研究思路与解决方案。本文简要概述了这些研究成果。

  关键词:

  语义图;场景理解;语义解析;场景图生成;群体行为识别;视频分析

  0 引言

  人类获取信息的途径多样,其中视觉信息被认为是大脑最主要的信息来源。研究视觉信息也是进入人工智能前沿技术的关键。生物学理论表明,人类能迅速准确地识别复杂场景图像,这种能力有助于判断形势和定位方向,是智能的重要体现。因此,计算机视觉中的场景理解旨在模仿人类这种识别能力,设计高效算法自动分析图像和视频。

  当前,仅提取图像的低级视觉特征难以实现准确高效的场景识别,还需向高级场景语义信息理解扩展。尽管已有大量方法试图从高层次理解场景图像,但“语义鸿沟”问题使得复杂场景理解变得困难。我们提出“场景深度语义理解”的研究思路,认为场景识别与理解的本质是“视觉语义理解与功能推理”,研究如何分析场景高层语义信息,将图像数据的多层次语义信息融合,以实现整体场景理解为目标。

  1 主要研究成果

  近年来,基于结构化视觉的场景理解成为研究方向。通过构建和生成场景图像语义图,将图像目标及其语义关系建模为图结构,解决通用问题,实现场景图像语义理解(成果一)。进一步,这种语义图模型在特定计算机视觉问题中有效应用,如作为多数据间的桥梁实现跨模态数据检索(成果二),以及视觉数据的自然语言描述(成果三)。还可增加时序关系,针对视频构建时空语义图进行行为分析(成果四)。

  成果一 场景图像语义理解

  场景语义图生成是将图像自动映射为结构化语义图模型的任务,需正确识别图像中每个物体的类别和位置,并检测物体间的交互关系。在场景语义图中,节点表示图像中的物体目标,边表示物体间的语义关系。我们提出了注意力关系网络模型,将图像映射为场景语义图,通过目标检测模块提取目标实体和实体间语义关系,输出检测概率分数。接着,提出新的语义关系转换模块,结合视觉与语义信息,将实体及其关系的视觉特征和自然语言特征同步映射到公共语义空间。此外,还提出了图自注意力模块,挖掘图像目标间的相关性,通过衡量节点与邻接节点的关系,赋予不同权重系数,提升语义关系检测的正确率。最后,采用多层感知器构建关系推理模块,对每个目标实体和语义关系进行分类。实验证明所提模型在国际领先的场景语义图分类正确率和语义关系识别准确率上表现优异。

  针对传统方法忽略场景中丰富的语义知识和目标间关系的挑战,我们提出了知识嵌入生成对抗网络模型进行半监督场景语义解析。该模型采用基于反卷积的生成器生成数据作为额外训练样本,全卷积神经网络作为鉴别器进行语义分割。通过引入知识图谱,提升像素分类的准确性。实验结果表明所提模型在国际数据集上取得了理想效果。

  成果二 跨模态多媒体检索

  随着移动互联网和多媒体大数据的发展,跨模态场景检索成为挑战。我们提出基于语义图模型和二值编码的在线跨模态场景检索方法。该方法包括跨模态二值编码表示、语义图模型构建、联合目标函数构造和在线更新学习四个部分。实验证明所提模型能有效保持不同模态数据的一致性和相似性。针对视频跨模态检索任务,我们提出语义感知的时空哈希检索模型,设计语义属性导向的随机学习训练方法,优化视频和文本哈希编码。实验结果证明所提模型在多个国际数据集上表现不俗。

  成果三 视觉数据自然语言描述

  所提出的场景语义图结构表示模型可作为多模态数据转化的桥梁。我们研究了体育视频解说生成和图片集故事生成两项任务。针对体育视频解说生成任务,提出层次化的注意力循环神经网络模型,包括运动表示模块和群组关系模块。实验验证了所提模型的有效性和先进性。针对图片集故事生成任务,提出隐空间记忆力增强的语义图 Transformer 模型,通过图编码模块和增强的隐空间记忆力单元保证故事的主题一致性和表达一贯性。实验结果表明所提模型在该任务上取得当前最优效果。

  成果四 视频行为分析

  我们研究了群体行为识别任务,提出基于时空语义图模型和注意力机制的注意力语义循环神经网络。实验结果表明所提模型能建模群体中个体间的复杂交互关系,并在群体行为和个体动作识别任务中取得较高准确率。针对小样本视频动作识别任务,提出基于集成学习的多速率记忆网络模型。实验结果证明所提模型在小样本视频处理问题上表现优越。此外,还研究了目标运动轨迹预测和缺失值补全任务,提出基于模仿学习的非自回归编码模型解决两项任务。

  2 结束语

  场景理解是计算机视觉领域的基本问题,而视觉语义分析是人工智能领域对计算机视觉的新要求。我们创新性地利用场景语义图模型构建结构化的视觉语义知识,并在多个重要研究中取得成效。未来我们将从二维拓展到三维世界,从单一模态延伸到多模态数据,进行多维度多层次的语义推理和场景感知研究。

© 版权声明

相关文章