论文笔记:ASLFeat: Learning Local Features of Accurate Shape and Localization

本文是基于 D2-Net 的进一步改进,主要创新点如下: 1)使用 Deformable Convolution 来进行稠密的变换估计和特征提取 2)使用特征金字塔适应空间分辨率以及使用 low-level 细节来进行精确的特征点定位 1 Methods 1.1 Prerequisites 本文的网络设计基于以下两个工作:DCN 和 D2-Net,首先回顾这两个工作的主要思想: Deformable convolutional networks (DCN) 可变形卷积 (Deformable Convolutional Networks, DCN) 的目的主要是学习动态感受野,对于传统卷积来说,其公式为: 其中 代表卷积的中心点坐标, 代表卷积 范围内的偏移量,...

论文笔记:NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

NeRF 是 ECCV 2020 的 Oral,影响非常大,可以说从基础上创造出了新的基于神经网络隐式表达来重建场景的路线。由于其简洁的思想和完美的效果,至今仍然有非常多的 3D 相关工作以此为基础。 NeRF 的基本思想是用神经网络作为一个 3D 场景的隐式表达,代替传统的点云、网格、体素、TSDF 等方式,同时通过这样的网络可以直接渲染任意角度任意位置的投影图像。 其主要工作如下: 1)提出一种用 5D 神经辐射场 (Neural Radiance Field) 来表达复杂的几何+材质连续场景的方法,该辐射场使用 MLP 网络进行参数化; 2)提出一种基于经典体素渲染 (Volume Rendering) 改进的可微渲染方法,能够通过可微渲染得到 RGB 图像,并将此作为优化的目标。该部分包含采用分层采样的加速策略,来将...

IROS 2021 THE HILTI SLAM 挑战赛冠军算法回顾

近日我们团队参加的 IROS 2021 The HILTI SLAM 挑战赛获得了最终的冠军。本文是对于本次比赛的算法的实验和思考,版权所有:旷视科技。原文链接:https://zhuanlan.zhihu.com/p/420192586 近日,IROS 2021 The HILTI SLAM 挑战赛公布了竞赛结果,旷视研究院荣获此次挑战赛的冠军。这是继去年包揽 CVPR 2020 SLAM 挑战赛全部赛道的冠军后,旷视研究院再次获得顶会 SLAM 竞赛的冠军。 2021 HILTI SLAM 挑战赛是国际顶级会议——智能机器人与系统国际会议(IEEE/RSJ International Conference on Intelligent...

论文笔记:End-to-End Learnable Geometric Vision by Backpropagating PnP Optimization

本文针对传统 PnP 方法与深度学习的结合做了一些工作,整体思路比较简单,主要就是怎么把传统方法 PnP 的残差反向传播给神经网路,从而能够实现 End2End 的训练,以及无需给定数据关联下的计算(Blind PnP)。 1 Backpropagating a PnP solver (BPnP) 首先用数学语言描述 PnP 问题。 定义 g 是一个 PnP solver,其输出 y 是求解的 6DoF 姿态: 其中 x 代表特征点在图像上的...

CVPR 2021 Image Matching 挑战赛双冠算法回顾

借之前我们给公司提供的文章,总结一下前一段时间参赛的一些实验和思考。本文版权所有:旷视科技。原文链接:https://www.zhihu.com/question/32066833/answer/2041516754 Image Matching (图像匹配)是计算机视觉领域最基础的技术之一,它是指通过稀疏或者稠密特征匹配的方式,将两幅图像相同位置的局部信息进行关联。Image Matching 在很多领域均有广泛应用,比如机器人、无人车、AR/VR、图像/商品检索、指纹识别等等。 在今年刚刚结束的 CVPR 2021 Image Matching 比赛中,旷视 3D 组获得两冠一亚的成绩,本文介绍了他们的比赛方案、实验和一些思考。 比赛介绍 图像匹配是指将两幅图像具有相同或者相似属性的内容或结构进行像素上的识别与对齐。一般而言,待匹配的图像通常取自相同或相似的场景或目标,或者具有相同形状或语义信息的其他类型的图像对,从而具有一定的可匹配性。 Image Matching Challenge 本次 Image Matching Challenge(IMC) 比赛还是分为两个赛道 unlimited keypoints 和 restricted keypoints,即每张图片可提取特征点数量分别小于 8k 和...

论文笔记:Linear Attention Mechanism: An Efficient Attention for Semantic Segmentation

由于经典的 Dot product Attention 具有较大的空间和时间复杂度,虽然效果很好,但由于图像和视频输入的数据量经常比文字大很多,这种经典的 Attention 限制了在高分辨率图像中的应用。本文提出了一种线性的 Attention 模块,希望能够解决这样的问题同时在性能上不会有明显的损耗。 本文主要贡献点有: 1)提出了一种新的线性化 Attention 方式,能够将计算复杂度从  降低到  2)该 Attention 机制使得 Attention 与网络的结合更加通用和灵活; 3)在语义分割任务中,该 Attention 机制的引入在多种 baseline 上获得了性能提升。 1 METHODOLOGY A. Definition of Dot-Product Attention 给定一个输入的特征向量 ,其中  代表特征长度, 代表特征维度。那么 Dot-Product Attention...

Policy Gradient (策略梯度)

Policy Gradient (策略梯度) 是强化学习中的基础概念之一,在很多工作中都会使用(特别是对于可微化的工作)。本文内容主要来自于台大李宏毅的教学课件。 下载地址:1636956663-PPO (v3) 1 Policy of Actor 1.1 基本概念 强化学习是根据环境观测、自身动作以及反馈来学习网络的一种方式。它通常有以下一些概念: Policy 用  表示,它是一个深度神经网络,网络的参数为  Actor 用  表示,它是我们可以控制的动作。比如对于上面的游戏例子来说,我们每一步可以选择 left right fire 三种动作。它就是 Policy Gradient 学习的对象 Environment 表示环境,这是我们无法改变的。我们仅能对其进行观测 Observation Reward 用  表示,它是我们采用动作后从环境获得结果。比如对于上面的游戏的例子来说就是当前获得的分数。 State 用 表示,它是我们当前所处的状态 Trajectory 用  表示...

论文笔记:Learning to Solve Nonlinear Least Squares for Monocular Stereo

本文利用端对端的网络处理直接法单目 SLAM 问题。作者在多个数据集和问题上实验,最后结果在准确性,参数量和速度上都超过LM方法。虽然整篇文章用于解决单目稠密SLAM问题,不过由于是在整个框架中优化后端的非线性最小二乘部分,其思想对于SLAM问题引入Learning具有普适性。与BA-Net 比较类似,是用深度学习改进后端优化的最基础贡献之一。 本文主要创新点如下: 1)提出了基于非线性最小二乘优化的一个端到端训练的框架; 2)先验和正则项学习都直接来自于训练数据; 3)第一个采用机器学习来优化光度误差的算法。 1 背景 本文背景比较类似于基于优化问题的直接法。 1.1 非线性最小二乘求解(Nonlinear Least Squares Solvers) 典型的非线性最小二乘问题如下: 其中 代表第 j 项的误差; 是优化变量; 代表目标函数。 通常求解这样的问题会采用数值优化的方法,例如 Gauss-Newton (GN)、Levenberg-Marquadt (LM) 算法等。 通常的做法是将误差进行一阶展开: 其中: 则最优迭代值为(使得当前误差函数取极小的迭代迭代方向): 在 Gauss-Newton (GN) 法中迭代步长通过下述方程求解: 而与 GN 算法不同,Levenberg-Marquadt (LM) 算法引入 改善收敛性,其迭代步长为: 以上是典型的通过梯度下降迭代优化最小二乘问题的步骤。 1.2...

论文笔记:RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

本文介绍了一种叫做 Recurrent All-Pairs Field Transforms (RAFT) 的光流网络,在数据集中取得了 SOTA 的结果。主要亮点如下: (1)State-of-the-art accuracy:本文在 KITTI 相对现有最好结果取得了 16% 的误差下降,达到 5.10%(F1)。在 Sintel 上取得了 30% 的误差下降(像素误差)。是目前最好的结果。 (2)Strong generalization:仅在仿真数据集训练时,RAFT 相比同样在仿真数据集训练的最好的网络结果有 40% 的误差下降。 (3)High efficiency: RAFT 在 1088×436...

论文笔记:Online Invariance Selection for Local Feature Descriptors

本篇文章是 ECCV 2020 Oral ,来自 ETH 的最新大作。本文主要侧重点在于通过神经网络的方式在线选择不变性的局部特征。通过很少的计算量增加,该方法可以比较通用地扩展到各种检测和描述子中,极大地提升实际场景的匹配效果。 主要创新点如下: 使用一个网络通过多任务学习的方式学习出适应多种变化组合的描述子 提出了一种基于 meta descriptor 的轻量级在线选择不变性描述子的方式 本文提出的多任务学习变化描述子以及在线选择不变性描述子的方式,可以拓展到任何传统或者基于 learning 的描述子上,具有很强的通用性。 1 Learning the best invariance for local descriptors 为了说明选择最佳不变性描述子的意义,作者举了个例子: 如上图所示,在纯旋转情况下 SIFT 可以有很好的表现,但是在没有旋转时, Upright SIFT (主方向固定为 (0, 1))...