Category: 机器人

论文笔记:Learning to Solve Nonlinear Least Squares for Monocular Stereo

本文利用端对端的网络处理直接法单目 SLAM 问题。作者在多个数据集和问题上实验,最后结果在准确性,参数量和速度上都超过LM方法。虽然整篇文章用于解决单目稠密SLAM问题,不过由于是在整个框架中优化后端的非线性最小二乘部分,其思想对于SLAM问题引入Learning具有普适性。与BA-Net 比较类似,是用深度学习改进后端优化的最基础贡献之一。 本文主要创新点如下: 1)提出了基于非线性最小二乘优化的一个端到端训练的框架; 2)先验和正则项学习都直接来自于训练数据; 3)第一个采用机器学习来优化光度误差的算法。 1 背景 本文背景比较类似于基于优化问题的直接法。 1.1 非线性最小二乘求解(Nonlinear Least Squares Solvers) 典型的非线性最小二乘问题如下: 其中 代表第 j 项的误差; 是优化变量; 代表目标函数。 通常求解这样的问题会采用数值优化的方法,例如 Gauss-Newton (GN)、Levenberg-Marquadt (LM) 算法等。 通常的做法是将误差进行一阶展开: 其中: 则最优迭代值为(使得当前误差函数取极小的迭代迭代方向): 在 Gauss-Newton (GN) 法中迭代步长通过下述方程求解: 而与 GN 算法不同,Levenberg-Marquadt (LM) 算法引入 改善收敛性,其迭代步长为: 以上是典型的通过梯度下降迭代优化最小二乘问题的步骤。 1.2...

论文笔记:Online Invariance Selection for Local Feature Descriptors

本篇文章是 ECCV 2020 Oral ,来自 ETH 的最新大作。本文主要侧重点在于通过神经网络的方式在线选择不变性的局部特征。通过很少的计算量增加,该方法可以比较通用地扩展到各种检测和描述子中,极大地提升实际场景的匹配效果。 主要创新点如下: 使用一个网络通过多任务学习的方式学习出适应多种变化组合的描述子 提出了一种基于 meta descriptor 的轻量级在线选择不变性描述子的方式 本文提出的多任务学习变化描述子以及在线选择不变性描述子的方式,可以拓展到任何传统或者基于 learning 的描述子上,具有很强的通用性。 1 Learning the best invariance for local descriptors 为了说明选择最佳不变性描述子的意义,作者举了个例子: 如上图所示,在纯旋转情况下 SIFT 可以有很好的表现,但是在没有旋转时, Upright SIFT (主方向固定为 (0, 1))...

论文笔记:From Coarse to Fine: Robust Hierarchical Localization at Large Scale

0 Background 视觉定位是指,在大尺度场景下,已知环境地图,给定任意一张图片,计算出该图片对应的位姿。目前比较流行的方法是,由粗到细两步定位。先通过图像检索的方式找到最接近的关键帧,再与该关键帧匹配局部特征。由于关键帧位姿已知,所以通过PnP等方法可以估计出当前帧位姿。两步定位可以避免从所有关键帧中直接匹配带来的时间复杂度,同时避免了将整个环境地图加载进内存带来的空间复杂度。 本文基于作者更早一些的工作《Leveraging Deep Visual Descriptors for Hierarchical Efficient Localization》,在那篇文章中,作者使用MobileNetVLAD实现图像检索,再使用局部特征(FREAK、SIFT等)实现位姿估计。 在看这篇文章之前可以看下 CVPR 2020 的 Long-term Visual Localization 比赛: 其中在手持设备定位方面,排在最前面的就是这篇 HF-Net + SuperGlue 的组合,可以看出其还是很有实战竞争力的。 1 Introduction 在视觉定位领域,基本上有两种主要的方向,一种是所谓的 End-to-end 方法,代表作是 PoseNet,这类方法直接用图片和 pose...

论文笔记:UnsuperPoint: End-to-end Unsupervised Interest Point Detector and Descriptor

SuperPoint 的工作取得了巨大的成功,但是有一个非常明显的问题就是训练和真值获取非常困难(采用仿真辅助)。在实际场景中,想要进行人工标注再 finetune 是比较难的。因此本文提出了一种无监督学习的方式同时获得关键点与描述子,虽然无监督,但是在数据集上取得了很好效果的同时也达到了很快的速度。 1 网络设计 本文的网络设计大体与 SuperPoint 一致,但是在 head 设计上面有很多细节不同,主要是 SuperPoint 主要使用分类方式离散地定位关键点坐标、是否为关键点等信息。在 UnsuperPoint 中,作者使用了 score map 作为关键点置信度指标、使用回归 offset 方式进行关键点定位。它的网络设计如下: 1.1 Backbone Module 本文的 Backbone module 与 SuperPoint 类似是一个...

将门创投分享《三维视觉与机器人》

document.getElementById("test").style.height=document.getElementById("test").scrollWidth*0.75+"px"; 1月16日我在将门创投在线直播分享了《三维视觉与机器人》,现将完整录像与 PPT 同步分享到这里。由于能力有限,经验不足,还望大家批评指正。 分享目录 SLAM 研究内容与应用概要 专题1:VIO& 多传感器融合 专题2:Struct SLAM 专题3:Visual Localization 专题4:激光SLAM 专题5:三维重建 专题6:语义 SLAM & HDMap 相关下载 PPT 下载 [pdf-embedder url="http://www.liuxiao.org/wp-content/uploads/2020/01/三维视觉与机器人_刘骁-将门-PDF.pdf"] PPT 下载 录像下载(by 将门创投) https://pan.baidu.com/s/1Sl9dYQsOxq4WVlotp8TNTg 相关地址 将门创投公众号:https://mp.weixin.qq.com/s/j_ZkLG4TrOu9o4hI31gPGw 视频回顾(B站):https://www.bilibili.com/video/av83616108/...

论文笔记:Deep Closest Point: Learning Representations for Point Cloud Registration

DCP 是一篇基于 Deep Learning 来解决 ICP 问题的,其中 Deep Learning 部分主要用于做匹配,后端仍然沿用 SVD 的方法。比很多 MLP 直接出 Pose 的合理,也取得了更好的效果。在与传统方法例如 Go-ICP 以及深度学习方法 PointNetLK 的对比中,都取得了一定的优势。 1 经典 ICP 问题 这一部分在之前的论文笔记中已经有了比较详细的阐述,参见:使用 SVD 方法求解...

使用 SVD 方法求解 ICP 问题

本文是结合《Least-Squares Rigid Motion Using SVD》和《Least-Squares Fitting of Two 3-D Point Sets》两篇文章写的一个总结,里面有一些是自己的理解不一定正确。 1 问题定义 假设我们有两个点云集合 和 ,则我们定义的 ICP 问题是通过最小化点对之间距离获得相应的 Pose: 其中 代表每个点的权重。R 和 t 是我们所要求的旋转矩阵和平移向量。 2 计算平移 我们分两步求解旋转和平移,首先求解 t。固定...

论文笔记:Dynamic Graph CNN for Learning on Point Clouds

DGCNN 是对 PointNet 的改进,PointNet 网络每个点单独提取特征缺乏局部关联。DGCNN 提出了 EdgeConv 就是对它的改进。 1 网络结构 DGCNN 网络结构如下图所示,可以看出其整体架构和 PointNet 是基本一致的,主要区别就是将其中的 MLP 替换成了 EdgeConv。 2 EdgeConv 2.1 EdgeConv 结构 上图是 EdgeConv 的示意图。假设一个F维点云 其中 F 表示每个点的维度,最简单的可能是 x,...

论文笔记:GCNv2: Efficient Correspondence Prediction for Real-Time SLAM

GCNv2 是一个专门针对几何匹配的描述子网络,是对 GCN 的改进版主要工作如下:1)与常见深度学习特征匹配的性能并且显著减少了前向运算的时间;2)加入了二值化层,生成二值特征。 1 GCNv2 网络结构 GCNv2 网络结构如下图所示: 这一结构不必赘述,其实跟 SuperPoint 很像,不过 Descriptors 部分是把 Keypoints 直接拿来取了相应的部分。PixelShuffle (有人也叫作 Sub-pixel Convolution 或者亚像素卷积)在文章(《Real-Time Single Image and Video Super-Resolution Using an Efficient...

Semantic SLAM 文章收集

截至目前 Semantic SLAM (注意不是 Semantic Mapping)工作还比较初步,可能很多思路还没有打开,但可以预见未来几年工作会越来越多。语义 SLAM 的难点在于怎样设计误差函数,将 Deep Learning 的检测或者分割结果作为一个观测,融入 SLAM 的优化问题中一起联合优化,同时还要尽可能做到至少 GPU 实时。 这一篇博客我将尽力收集一些有代表性的文章,提供下载和简单思路的理解,但个人精力、能力有限也欢迎大家随时提供更多更好的文章。 1、《Probabilistic Data Association for Semantic SLAM》 ICRA 2017 语义 SLAM 中的概率数据融合,感觉应该算开山鼻祖的一篇了。这篇也获得了 ICRA...