计算机视觉三大领域计算机视觉技术的发展方向( 三 )

3D 对象理解涉及广泛的研究领域，包括对象检测，对象跟踪，姿态估计，深度估计，场景重建等。让我们来看看 2018 年该领域的主要论文：
Detect-and-Track 是 2017 年出现的最有前途的图像分割方法之一 Mask R-CNN 的延伸。作者提出了一种 3D Mask R-CNN 架构，它使用时空卷积来提取特征并直接识别短片中的姿势。完整的架构如下所示。它在姿势估计和人体追踪方面实现了当前最优结果。Pose-Sensitive Embeddings for Person Re-Identification 应对了行人重识别（person re-identification）的挑战。通常，这个问题通过基于检索的方法来解决，即求导查询图像与来自某个嵌入空间的存储图像之间的相似度度量。这篇论文提出将姿势信息直接嵌入到 CNN 中,并设计了一个无监督的重排序新方法。架构如下图所示。3D Poses from a Single Image（基于单色图像的 3D 姿势）提出了一种姿势估计的特别方法。它直接通过一种结合了姿势估计、人体轮廓分割和网格生成的端到端卷积结构生成人体的 3D 网格，关键点在于它使用了 SMPL，一种统计学身体形状模型，为人体的形状提供了良好的先验。因此，它得以从一张单色图像构造人体的 3D 网格。Flow Track （光流相关滤波）则致力于对象追踪问题。它是相关滤波类方法（DCF，discriminative correlation filter）的扩展，学习与对象相对应的滤波并将其应用于所有视频帧。其模型体系结构具有空间-时间注意力（spatial-temporal attention）机制，关注视频中的不同时间帧。（译者注：在 spatial attention 中，用余弦距离衡量，对空间位置上每一个待融合的点分配权重：和当前帧越相似，权重越大，反之越小；这么做的问题是当前帧的权重永远是最大的，于是作者借鉴 SENet 的思想设计了时间权重 temporal attention，即把每一帧看做一个channel，设计一个质量判断网络，网络输出的结果是每一帧的质量打分。temporal attention 和 spatial attention 结合，实现 feature map 的融合。）与上述的 Flow Track 相同，Correlation Tracking 也是用相关滤波处理对象追踪。然而这种方法不使用深度神经网络，相反，它包含可靠性信息 – 这意味着作者在目标函数中添加了一项，用于模拟学习过滤器的可靠性。希望你会喜欢这篇短评。如果你有兴趣探索更多，建议阅读CVPR，ICLR, 以及机器学习和人工智能领域最负盛名的会议——NeurIPS 。

以上关于本文的内容，仅作参考！温馨提示：如遇健康、疾病相关的问题，请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容，希望对您有所帮助：

计算机视觉三大领域 计算机视觉技术的发展方向( 三 )

计算机视觉三大领域计算机视觉技术的发展方向( 三 )