[计算机视觉论文速递] 2018-04-19

时间 2021-02-01

原文原文链接

通知：这篇文章有8篇论文速递信息，涉及目标识别、SLAM、3D Model、密集点集配准、立体匹配等方向（含6篇CVPR论文）网络

目标识别框架

[1]《Hierarchical Novelty Detection for Visual Object Recognition》ide

CVPR 2018函数

Abstract：深度神经网络在具备预约义类别的大规模视觉对象识别任务中取得了使人瞩目的成功。然而，在训练期间识别新类（即未被看见的对象）仍然具备挑战性。在文献中已经讨论了检测这种新类的问题，可是以前大多数工做都是提供简单的二元或回归决策，例如，输出将是“已知的”，“新颖的”或相应的置信区间。在本文中，咱们研究更多的基于分层分类框架的信息新颖性检测方案。对于一个新类的对象，咱们的目标是在已知类的分层分类中找到它最接近的超类。为此，咱们提出了两种不一样的方法，称为自顶向下和扁平化方法，以及它们的组合。咱们方法的基本组成部分是置信度校订分类器，数据从新标记以及在分层分类法下对新类进行建模的“一次退出”策略。此外，咱们的方法能够生成分层嵌入，结合其余经常使用的语义嵌入，能够提升广义零点学习性能。布局

arXiv：https://arxiv.org/abs/1804.00722性能

SLAM
学习

[2]《CodeSLAM - Learning a Compact, Optimisable Representation for Dense Visual SLAM》优化

CVPR 2018编码

Abstract：实时三维感知系统中的几何表示仍然是一个关键的研究问题。密集的地图捕捉完整的表面形状，而且能够增长语义标签，可是它们的高维使得它们在存储和处理上的计算成本高，而且不适合严格的几率推断。基于稀疏特征的表示能够避免这些问题，但只捕获部分场景信息，而且主要用于本地化。视频

咱们提出了一种新的紧凑但密集的场景几何表示形式，它以单个图像的强度数据为条件，并由包含少许参数的代码生成。咱们受到来自图像学习深度和自动编码器的启发。咱们的方法适用于基于关键帧的单目密集SLAM系统：虽然每一个带有代码的关键帧均可以生成深度图，但代码能够与姿态变量一块儿高效地进行优化，并与重叠关键帧的代码一块儿进行优化，以得到全局一致性。调整图像上的深度图容许代码仅表示局部几何图形的不能直接从图像预测的方面。咱们解释如何学习咱们的代码表示，并展现其在单目SLAM中的优点特性。

arXiv：https://arxiv.org/abs/1804.00874

其它

[3]《Learning to Separate Object Sounds by Watching Unlabeled Video》

Abstract：感知一个场景最完整的须要全部的感官。然而，建模物体外观和声音的方式是具备挑战性的：大多数天然场景和事件包含多个对象，而且音轨将全部声源混合在一块儿。咱们建议从未标记的视频中学习视听对象模型，而后利用视觉上下文在新视频中执行音频源分离。咱们的方法依赖于深度多实例多标签学习框架来解决映射到单个视觉对象的音频频率库，即便没有单独观察/听取这些对象。咱们展现了如何使用恢复的解开的基础来指导音频源分离以得到更好分离的对象级声音。咱们的工做是第一个在大型“wild”视频中研究音频源分离的。咱们在视觉辅助音频源分离和音频去噪方面得到了最早进的成果。

arXiv：https://arxiv.org/abs/1804.01665

注：根据画面对声音进行分离，颇有意思！

[4]《Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images》

Abstract：咱们提出了一种端到端的深度学习体系结构，可从单一颜色的图像生成三角形网格中的三维形状。受限于深度神经网络的性质，先前的方法一般表示体积或点云中的3D形状，将它们转换为更易于使用的网格模型比较难。与现有方法不一样，咱们的网络在基于图形的卷积神经网络中表示3D网格，并经过逐渐变形椭球造成正确的几何图形，利用从输入图像中提取的感知特征。咱们采用从粗到精的策略，使整个变形过程稳定，并定义各类网格相关损失以捕捉不一样层次的属性，以保证视觉吸引力和物理准确的3D几何。大量实验代表，咱们的方法不只定性地生成具备更好细节的网格模型，并且与最早进的技术相比还实现了更高的3D形状估计精度。

arXiv：https://arxiv.org/abs/1804.01654

[5]《Image Generation from Scene Graphs》

CVPR 2018

Abstract：为了真正理解视觉世界，咱们的模型不只应该可以识别图像，还可以生成它们。为此，近期在天然语言描述中生成图像方面取得了使人振奋的进展。这些方法在有限的领域（例如鸟类或花卉的描述）上提供了使人惊叹的结果，但却难以忠实地复制具备许多对象和关系的复杂句子。为了克服这个限制，咱们提出了一种从场景图生成图像的方法，可以明确地推理对象及其关系。咱们的模型使用图形卷积来处理输入图，经过预测对象的边界框和分割掩模来计算场景布局，而且将布局转换为具备级联精化网络的图像。网络训练敌对一对鉴别器，以确保实际输出。咱们经过Visual Genome和COCO-Stuff验证了咱们的方法，其中定性结果，消融和用户研究证实了咱们的方法可以生成具备多个对象的复杂图像。

arXiv：https://arxiv.org/abs/1804.01622

注：李飞飞大做！！！

[6]《A Unifying Contrast Maximization Framework for Event Cameras, with Applications to Motion, Depth, and Optical Flow Estimation》

CVPR 2018

Abstract：咱们提出了一个统一的框架来解决事件相机的几个计算机视觉问题：运动，深度和光流估计。咱们框架的主要思想是经过最大化一个目标函数找到图像平面上与事件数据最佳对齐的点轨迹：warped events图像的对比度。咱们的方法隐式地处理事件之间的数据关联，所以不依赖于关于场景的额外外观信息。除了准确地恢复问题的运动参数外，咱们的框架还生成具备高动态范围的运动修正边缘状图像，可用于进一步场景分析。所提出的方法不只简单，并且更重要的是，据咱们所知，第一种方法能够成功地应用于这样一组具备事件相机的重要视觉任务。

arXiv：https://arxiv.org/abs/1804.01306

[7]《Density Adaptive Point Set Registration》

CVPR 2018

Abstract：点集配准（registration）的几率方法近年来已显示出竞争性结果。这些技术估计点云的几率分布模型。虽然这样的表示已经显示出但愿，但它对3D点密度的变化高度敏感。这个基本问题主要是由传感器位置在点集上的变化引发的。咱们从新审视几率注册范式的基础。与之前的做品相反，咱们将场景的底层结构建模为潜在几率分布，从而引起不变以指向集合密度变化。场景的几率模型和配准参数都是经过最小化基于指望最大化框架的Kullback-Leibler散度来推断的。咱们的密度自适应配准可以成功处理地面激光雷达应用中常见的严重密度变化。咱们对几个具备挑战性的现实世界激光雷达数据集进行了大量实验。结果代表，咱们的方法赛过了用于多视图注册的最早进的几率方法，而不须要从新采样。

arXiv：https://arxiv.org/abs/1804.01495

[8]《Left-Right Comparative Recurrent Model for Stereo Matching》

CVPR 2018

Abstract：利用来自左视图和右视图的视差信息对于立体视差估计是相当重要的。经过参照来自相反观点的信息，左右一致性检查是加强差别估计的有效方法。然而，传统的左右一致性检查是一个独立的后处理步骤，而且是手工制做的。本文提出了一种新的左右比较循环模型，与视差估计一块儿进行左右一致性检验。在每一个循环步骤中，模型会为两个视图生成视差结果，而后执行联机左右比较以肯定可能包含错误标记像素的不匹配区域。引入了一种软性关注机制，该机制采用学习错误地图更好地指导模型，有选择性地关注下一个重复步骤中不可靠区域的细化。经过这种方式，所提出的复发模型逐渐改善了生成的视差图。对KITTI 2015，Scene Flow和Middlebury基准的普遍评估验证了咱们模型的有效性，证实了这种新模型能够实现最早进的立体视差估计结果。

arXiv：https://arxiv.org/abs/1804.00796

注：左右视图的立体匹配，深度学习真的席卷了计算机视觉啊！