分类： 3D & SLAM

论文笔记：ASLFeat: Learning Local Features of Accurate Shape and Localization

2021年12月1日

本文是基于 D2-Net 的进一步改进，主要创新点如下： 1）使用 Deformable Convolution 来进行稠密的变换估计和特征提取 2）使用特征金字塔适应空间分辨率以及使用 low-level 细节来进行精确的特征点定位 1 Methods 1.1 Prerequisites 本文的网络设计基于以下两个工作：DCN 和 D2-Net，首先回顾这两个工作的主要思想： Deformable convolutional networks (DCN)可变形卷积 (Deformable Convolutional Networks, DCN) 的目的主要是学习动态感受野，对于传统卷积来说，其公式为：其中代表卷积的中心点坐标，代表卷积范围内的偏移量，...

论文笔记：NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

2021年11月1日

NeRF 是 ECCV 2020 的 Oral，影响非常大，可以说从基础上创造出了新的基于神经网络隐式表达来重建场景的路线。由于其简洁的思想和完美的效果，至今仍然有非常多的 3D 相关工作以此为基础。 NeRF 所做的任务是 Novel View Synthesis（新视角合成），即在若干已知视角下对场景进行一系列的观测（相机内外参、图像、Pose 等），合成任意新视角下的图像。传统方法中，通常这一任务采用三维重建再渲染的方式实现，NeRF 希望不进行显式的三维重建过程，仅根据内外参直接得到新视角渲染的图像。为了实现这一目的，NeRF 使用用神经网络作为一个 3D 场景的隐式表达，代替传统的点云、网格、体素、TSDF 等方式，通过这样的网络可以直接渲染任意角度任意位置的投影图像。NeRF 的思想比较简单，就是通过输入视角的图像每个像素的射线对于密度（不透明度）积分进行体素渲染，然后通过该像素渲染的 RGB 值与真值进行对比作为 Loss。由于文中设计的体素渲染是完全可微的，因此该网络可学习：其主要工作和创新点如下： 1）提出一种用 5D 神经辐射场 (Neural...

IROS 2021 THE HILTI SLAM 挑战赛冠军算法回顾

2021年10月13日

近日我们团队参加的 IROS 2021 The HILTI SLAM 挑战赛获得了最终的冠军。本文是对于本次比赛的算法的实验和思考，版权所有：旷视科技。原文链接：https://zhuanlan.zhihu.com/p/420192586 近日，IROS 2021 The HILTI SLAM 挑战赛公布了竞赛结果，旷视研究院荣获此次挑战赛的冠军。这是继去年包揽 CVPR 2020 SLAM 挑战赛全部赛道的冠军后，旷视研究院再次获得顶会 SLAM 竞赛的冠军。 2021 HILTI SLAM 挑战赛是国际顶级会议——智能机器人与系统国际会议（IEEE/RSJ International Conference on Intelligent...

论文笔记：End-to-End Learnable Geometric Vision by Backpropagating PnP Optimization

2021年8月25日

本文针对传统 PnP 方法与深度学习的结合做了一些工作，整体思路比较简单，主要就是怎么把传统方法 PnP 的残差反向传播给神经网路，从而能够实现 End2End 的训练，以及无需给定数据关联下的计算（Blind PnP）。 1 Backpropagating a PnP solver (BPnP) 首先用数学语言描述 PnP 问题。定义 g 是一个 PnP solver，其输出 y 是求解的 6DoF 姿态：其中 x 代表特征点在图像上的...

CVPR 2021 Image Matching 挑战赛双冠算法回顾

2021年8月6日

借之前我们给公司提供的文章，总结一下前一段时间参赛的一些实验和思考。本文版权所有：旷视科技。原文链接：https://www.zhihu.com/question/32066833/answer/2041516754 Image Matching （图像匹配）是计算机视觉领域最基础的技术之一，它是指通过稀疏或者稠密特征匹配的方式，将两幅图像相同位置的局部信息进行关联。Image Matching 在很多领域均有广泛应用，比如机器人、无人车、AR/VR、图像/商品检索、指纹识别等等。在今年刚刚结束的 CVPR 2021 Image Matching 比赛中，旷视 3D 组获得两冠一亚的成绩，本文介绍了他们的比赛方案、实验和一些思考。比赛介绍图像匹配是指将两幅图像具有相同或者相似属性的内容或结构进行像素上的识别与对齐。一般而言，待匹配的图像通常取自相同或相似的场景或目标，或者具有相同形状或语义信息的其他类型的图像对，从而具有一定的可匹配性。 Image Matching Challenge本次 Image Matching Challenge（IMC）比赛还是分为两个赛道 unlimited keypoints 和 restricted keypoints，即每张图片可提取特征点数量分别小于 8k 和...

论文笔记：Learning to Solve Nonlinear Least Squares for Monocular Stereo

2020年11月9日

本文利用端对端的网络处理直接法单目 SLAM 问题。作者在多个数据集和问题上实验，最后结果在准确性，参数量和速度上都超过LM方法。虽然整篇文章用于解决单目稠密SLAM问题，不过由于是在整个框架中优化后端的非线性最小二乘部分，其思想对于SLAM问题引入Learning具有普适性。与BA-Net 比较类似，是用深度学习改进后端优化的最基础贡献之一。本文主要创新点如下： 1）提出了基于非线性最小二乘优化的一个端到端训练的框架； 2）先验和正则项学习都直接来自于训练数据； 3）第一个采用机器学习来优化光度误差的算法。 1 背景本文背景比较类似于基于优化问题的直接法。 1.1 非线性最小二乘求解（Nonlinear Least Squares Solvers）典型的非线性最小二乘问题如下：其中代表第 j 项的误差；是优化变量；代表目标函数。通常求解这样的问题会采用数值优化的方法，例如 Gauss-Newton (GN)、Levenberg-Marquadt (LM) 算法等。通常的做法是将误差进行一阶展开：其中：则最优迭代值为（使得当前误差函数取极小的迭代迭代方向）：在 Gauss-Newton (GN) 法中迭代步长通过下述方程求解：而与 GN 算法不同，Levenberg-Marquadt (LM) 算法引入改善收敛性，其迭代步长为：以上是典型的通过梯度下降迭代优化最小二乘问题的步骤。 1.2...

论文笔记：Online Invariance Selection for Local Feature Descriptors

2020年8月10日

本篇文章是 ECCV 2020 Oral ，来自 ETH 的最新大作。本文主要侧重点在于通过神经网络的方式在线选择不变性的局部特征。通过很少的计算量增加，该方法可以比较通用地扩展到各种检测和描述子中，极大地提升实际场景的匹配效果。主要创新点如下：使用一个网络通过多任务学习的方式学习出适应多种变化组合的描述子提出了一种基于 meta descriptor 的轻量级在线选择不变性描述子的方式本文提出的多任务学习变化描述子以及在线选择不变性描述子的方式，可以拓展到任何传统或者基于 learning 的描述子上，具有很强的通用性。1 Learning the best invariance for local descriptors 为了说明选择最佳不变性描述子的意义，作者举了个例子：如上图所示，在纯旋转情况下 SIFT 可以有很好的表现，但是在没有旋转时， Upright SIFT (主方向固定为 (0, 1))...

论文笔记：From Coarse to Fine: Robust Hierarchical Localization at Large Scale

2020年7月6日

0 Background 视觉定位是指，在大尺度场景下，已知环境地图，给定任意一张图片，计算出该图片对应的位姿。目前比较流行的方法是，由粗到细两步定位。先通过图像检索的方式找到最接近的关键帧，再与该关键帧匹配局部特征。由于关键帧位姿已知，所以通过PnP等方法可以估计出当前帧位姿。两步定位可以避免从所有关键帧中直接匹配带来的时间复杂度，同时避免了将整个环境地图加载进内存带来的空间复杂度。本文基于作者更早一些的工作《Leveraging Deep Visual Descriptors for Hierarchical Efficient Localization》，在那篇文章中，作者使用MobileNetVLAD实现图像检索，再使用局部特征（FREAK、SIFT等）实现位姿估计。在看这篇文章之前可以看下 CVPR 2020 的 Long-term Visual Localization 比赛：其中在手持设备定位方面，排在最前面的就是这篇 HF-Net + SuperGlue 的组合，可以看出其还是很有实战竞争力的。 1 Introduction 在视觉定位领域，基本上有两种主要的方向，一种是所谓的 End-to-end 方法，代表作是 PoseNet，这类方法直接用图片和 pose...

论文笔记：UnsuperPoint: End-to-end Unsupervised Interest Point Detector and Descriptor

2020年4月20日

SuperPoint 的工作取得了巨大的成功，但是有一个非常明显的问题就是训练和真值获取非常困难（采用仿真辅助）。在实际场景中，想要进行人工标注再 finetune 是比较难的。因此本文提出了一种无监督学习的方式同时获得关键点与描述子，虽然无监督，但是在数据集上取得了很好效果的同时也达到了很快的速度。 1 网络设计本文的网络设计大体与 SuperPoint 一致，但是在 head 设计上面有很多细节不同，主要是 SuperPoint 主要使用分类方式离散地定位关键点坐标、是否为关键点等信息。在 UnsuperPoint 中，作者使用了 score map 作为关键点置信度指标、使用回归 offset 方式进行关键点定位。它的网络设计如下：1.1 Backbone Module 本文的 Backbone module 与 SuperPoint 类似是一个...

将门创投分享《三维视觉与机器人》

2020年1月20日

document.getElementById("test").style.height=document.getElementById("test").scrollWidth*0.75+"px";1月16日我在将门创投在线直播分享了《三维视觉与机器人》，现将完整录像与 PPT 同步分享到这里。由于能力有限，经验不足，还望大家批评指正。分享目录 SLAM 研究内容与应用概要专题1：VIO& 多传感器融合专题2：Struct SLAM 专题3：Visual Localization 专题4：激光SLAM 专题5：三维重建专题6：语义 SLAM & HDMap 相关下载 PPT 下载 [pdf-embedder url="https://www.liuxiao.org/wp-content/uploads/2020/01/三维视觉与机器人_刘骁-将门-PDF.pdf"] PPT 下载录像下载（by 将门创投） https://pan.baidu.com/s/1Sl9dYQsOxq4WVlotp8TNTg 相关地址将门创投公众号：https://mp.weixin.qq.com/s/j_ZkLG4TrOu9o4hI31gPGw 视频回顾（B站）：https://www.bilibili.com/video/av83616108/...