MonST3R

A Simple Approach for Estimating Geometry in the Presence of Motion (ICLR 2025)

MonST3R - A Simple Approach for Estimating Geometry in the Presence of Motion

Junyi Zhang, Charles Herrmann, Junhwa Hur, Varun Jampani, Trevor Darrell, Forrester Cole, Deqing Sun, Ming-Hsuan Yang

paper :
https://arxiv.org/abs/2410.03825
project website :
https://monst3r-project.github.io/

Contribution

static scene에 사용됐던 DUSt3R를 dynamic scene에 확장한 버전!

Architecture

Method

Main Idea

DUSt3R의 아이디어를 그대로 가져오고,
DUSt3R의 각 output pointmap \(X^{t} \in R^{W \times H \times 3}\) 이 time 정보 \(t\) 를 가지고 있음

Training Dataset

real-world dynamic scene은 보통 GT camera pose를 가지고 있지 않으므로
SfM 등 sensor measurement 또는 post-processing을 통해 추정하는데
이는 부정확할 수 있고 costly하므로
본 논문은 GT camera pose, depth 정보를 알 수 있는 synthetic datasets를
dynamic fine-tuning을 위한 training dataset으로 사용

Training Strategy

dataset이 small-scale이므로
data efficiency를 극대화시키기 위해
다양한 training techniques 사용

Dynamic Global Point Clouds and Camera Pose

frame 수가 많기 때문에
pairwise pointmap 들로부터 직접 하나의 dynamic global point cloud를 추출하는 건 어렵.
지금부터 pairwise model을 이용해서
dynamic global pcd \(\hat X\) 와 camera pose \(\hat K, \hat P = [\hat R | \hat T]\) 를 동시에 optimize하는 방법을 소개하겠다

Downstream Applications

Intrinsics and Relative Pose Estimation

Confident Static Regions

Video Depth

optimal global pointmap \(\hat X\) 자체가 re-parameterization에 의해
per-frame depthmap \(\hat D\) 로 이루어져 있고,
just \(\hat D\) 자체가 video depth

Experiment

Results

Ablation Study

Limitation

Question