Visual Geometry Grounded Deep Structure From Motion

Motivation

近期SfM的工作仅仅是通过深度学习来增强SfM中的特定流程，但整理的pipeline还是原始的、不可微分的。

因此，这篇文章想要提出一种新的pipeline，即VGGSfM，其中每一个component都是fully differentiable！

对于一组无序图像，VGGSfM估计相机内外参数和场景的点云。

这部分写的还挺好的，嘎嘎截图就好了，都能看懂。

VGGSfM可以分解下面四个阶段：

这部分使用deep feed-forward tracking function，基于之前video point tracking的方法来实现。

难怪建元在VGGT汇报的时候会说，希望通过大量的YouTube视频怎么怎么。。。VGGT本来是打算沿着VGGSfM做下来的。。。

不过这部分设计和video point tracking是有区别的，因为SfM的图像是无序的，不能假定temporal smoothness or ordering，并且需要sub-pixel accuracy。

略，看论文吧。

说白了这篇文章做的事情就是：

感觉这些idea，从目前来看似乎“每个人都想的到”，但现在已经不是2023年了。

训练的部分还挺好的，用的随机帧数。FLARE都2025年了，还在固定8views的输入。

从效果上来看，differentiable BA还是比较重要的，需要关注一下！

引用：Luis Pineda, Taosha Fan, Maurizio Monge, Shobha Venkataraman, Paloma Sodhi, Ricky TQ Chen, Joseph Ortiz, Daniel DeTone, Austin Wang, Stuart Anderson, et al. Theseus: A library for differentiable nonlinear optimization. Advances in Neural Information Processing Systems, 35:3801– 3818, 2022. 2, 5
代码：https://github.com/facebookresearch/theseus
论文：https://arxiv.org/abs/2207.09442

==疑问：为什么需要differential BA？==

Immortalqx

http://Immortalqx.github.io/2025/04/05/paper-reading-vggsfm/