腾讯 AI Lab 21 篇 CVPR 2018 录用论文详解

AI百科5个月前更新 快创云
45 0

  近年来,国际计算机视觉领域最具影响力、研究内容最全面的顶级学术会议CVPR公布了2018年论文录用名单,其中腾讯AI Lab共有21篇论文入选,位居国内企业前列。本文将详细解析这些入选论文,并探讨计算机视觉的未来方向与挑战。

计算机视觉的未来方向与挑战

  计算机视觉的未来,是多媒体AI崛起,机器之眼被慢慢打开的未来。多媒体有时被称为富媒体,是对图像、语音、动画和交互信息的统称。多媒体AI是对这些所有内容的智能处理。据国际报告,到2021年,视频将占全球个人互联网流量的82%,成为信息的主要载体。目前,计算机视觉中心的工作重点从单纯的图像转向视频AI,研究视频的编辑、理解、分析和生成等。

  1. 深层信息理解:研究如何让AI理解视频中更深层、更细节的信息,分析视频里人物与人物间、人物与物体间,到物体与场景间的具体关系。
  2. 多模态信息结合:不仅研究视觉信号,还着眼于多模态信息,如计算机视觉加文本、加语音等信号的结合。
  3. 垂直领域应用:在机器人领域,用视觉信息让AI感知周围世界,进行导航和避障等操作;在医疗领域,分析医疗影像数据,结合病历文本信息等,让AI深入参与到辅助诊疗中。

腾讯AI Lab 21篇入选论文详解

  1. 基于递归的左右双目对比模型的立体匹配:提出了一种全新的左右双目对比的递归模型,实现左右一致性检测和视差估计。在多个标准库上的实验验证了本方法的有效性。
  2. MRF中的CNN:提出了一个新的时空马尔可夫随机场(MRF)模型,结合CNN和空间相邻像素的分割标记概率,有效解决了视频对象分割问题。
  3. CosFace:设计了一个新的损失函数——增强边缘余弦损失函数(LMCL),通过归一化和增强余弦决策边距的方法,有效提高了人脸识别的性能。
  4. 类人化标注:提出了一种新的自动图像标注的生成式模型——多样性和独特性图像标注(D2IA),产生语义相关、独特且多样的标签。
  5. 用当前重构过去的正则化RNN的描述生成:提出了自动重构网络(ARNet)框架,结合传统的编解码框架,提高了描述生成技术的性能。
  6. 视频描述的重构网络:提出了一个重构网络(RecNet),结合前向信息流和后向信息流生成视频描述,提高了视频描述的准确性。
  7. 面向视频理解的端到端动作表示学习:提出了一个能从数据中学习类光流特征并进行端到端训练的神经网络TVNet,提高了动作识别的精度。
  8. 基于门限融合网络的图像去雾方法:提出了一个门限融合网络,通过多尺度门限融合网络有效去除了恢复结果中的光圈效应。
  9. 基于双向注意融合机制和上下文门控的密集视频描述:提出了双向提取事件候选区间的方法和上下文门控机制,提高了密集视频描述的准确性。
  10. 基于多阶段生成对抗网的延时摄影视频的生成:展示了一个两阶段的生成对抗网,生成逼真的延时摄影视频。
  11. VITAL:对抗式学习之视觉跟踪:提出了VITAL算法,解决了检测式跟踪中的正样本高度重叠和正负样本不均衡的问题。
  12. 再访空洞卷积:重新探索空洞卷积并阐明了其如何使分类网络生成密集的物体定位信息。
  13. 使用语义保持对抗嵌入网络的zero-shot视觉识别:提出了语义保持敌对嵌入网络(SP-AEN),实现了对未见类的zero-shot识别。
  14. 用于跨模态检索的自监督对抗哈希网络:提出了自我监督对抗哈希(SSAH)方法,提高了跨模态检索的准确性。
  15. 左右非对称层跳跃网络:提出了左右非对称层跳跃网络,用于由粗到精的物体分类。
  16. 利用空间变化循环神经网络对动态场景去模糊:提出了空间变化的神经网络解决动态场景去模糊问题。
  17. 利用深度往复式高动态范围转换进行图像校正:提出了深度往复式高动态范围转换模型进行图像校正。
  18. 端到端的卷积语义嵌入:提出了端到端的卷积语义嵌入模型,提高了图像和句子的语义匹配性能。
  19. 一种有效防止负迁移或灾难性遗忘的深度人脸检测的自适应算法:提出了自适应算法,有效防止了负迁移和灾难性遗忘。
  20. 基于几何指导下的卷积神经网络的视频表征自监督学习:探索了几何信息辅助视频表征的自监督学习。
  21. 学习在黑暗中看世界:开发了一个基于全卷积网络端到端训练的低光图像处理流水线,克服了传统方法的不足。

  更多关于CVPR 2018的报道,请持续关注相关资讯。

© 版权声明

相关文章