计算机视觉三大领域 计算机视觉技术的发展方向( 三 )


3D 对象理解涉及广泛的研究领域,包括对象检测,对象跟踪,姿态估计,深度估计,场景重建等 。让我们来看看 2018 年该领域的主要论文:
Detect-and-Track 是 2017 年出现的最有前途的图像分割方法之一 Mask R-CNN 的延伸 。作者提出了一种 3D Mask R-CNN 架构,它使用时空卷积来提取特征并直接识别短片中的姿势 。完整的架构如下所示 。它在姿势估计和人体追踪方面实现了当前最优结果 。Pose-Sensitive Embeddings for Person Re-Identification 应对了行人重识别(person re-identification)的挑战 。通常,这个问题通过基于检索的方法来解决,即求导查询图像与来自某个嵌入空间的存储图像之间的相似度度量 。这篇论文提出将姿势信息直接嵌入到 CNN 中,并设计了一个无监督的重排序新方法 。架构如下图所示 。3D Poses from a Single Image(基于单色图像的 3D 姿势 ) 提出了一种姿势估计的特别方法 。它直接通过一种结合了姿势估计、人体轮廓分割和网格生成的端到端卷积结构生成人体的 3D 网格,关键点在于它使用了 SMPL,一种统计学身体形状模型,为人体的形状提供了良好的先验 。因此,它得以从一张单色图像构造人体的 3D 网格 。Flow Track (光流相关滤波) 则致力于对象追踪问题 。它是相关滤波类方法(DCF,discriminative correlation filter)的扩展,学习与对象相对应的滤波并将其应用于所有视频帧 。其模型体系结构具有空间-时间注意力(spatial-temporal attention)机制,关注视频中的不同时间帧 。(译者注:在 spatial attention 中,用余弦距离衡量,对空间位置上每一个待融合的点分配权重:和当前帧越相似,权重越大,反之越小;这么做的问题是当前帧的权重永远是最大的,于是作者借鉴 SENet 的思想设计了时间权重 temporal attention,即把每一帧看做一个channel,设计一个质量判断网络,网络输出的结果是每一帧的质量打分 。temporal attention 和 spatial attention 结合,实现 feature map 的融合 。)与上述的 Flow Track 相同,Correlation Tracking 也是用相关滤波处理对象追踪 。然而这种方法不使用深度神经网络,相反,它包含可靠性信息 – 这意味着作者在目标函数中添加了一项,用于模拟学习过滤器的可靠性 。希望你会喜欢这篇短评 。如果你有兴趣探索更多,建议阅读CVPR,ICLR, 以及机器学习和人工智能领域最负盛名的会议——NeurIPS 。


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: