Gaussian 집합 \(G_t\) 를 \(G_{t+1}\) 로 올바르게 변환할 수 있는 learnable SE-3 affine transformation \(T_t\) 를 찾아야 함
전제 : video로 찍은 연속적인 frame이므로 \(T_t\) 의 값이 크지 않음
photometric loss로 optimal relative camera pose(affine transformation)을 10초 안에 구함 \(T_t^{\ast} = \text{argmin}_{T_t} L_{rbg} (R(T_t \odot G_t), I_{t+1})\) where \(G_t\) is freezed (self-rotation 등 방지) (geometric transformation(camera movement)에만 집중)
Global 3DGS with Progressively Growing
Local 3DGS를 통해 optimal relative camera pose를 구했다
한계 : frame \(F\) 와 frame \(F+t\) 간의 relative camera pose를 단순히 \(\prod_{k=F}^{F+t} T_k\) 처럼 곱으로 두면 오차가 점점 커져서 entire scene reconstruction 결과가 noisy
Global 3DGS :
frame이 들어올 때마다 relative camera pose \(T_t\) 와 frame \(t, t+1\) 이용해서 optimal Global 3DGS 업데이트 (progressively growing)
어떻게 업데이트? : frame \(t+1\) 에는 frame \(t\) 에서 보지 못한 일부 영역 들이 있으므로 새로운 frame에 대한 under-reconstruction densification에 초점을 두어 last frame까지 계속해서 점진적으로 scene reconstruction 수행 (last frame까지 계속 under-reconstruction 상황(보지 못했던 영역)이 발생할 것이라는 전제) (새로운 테크닉은 아니고 3DGS에서의 adaptive density control과 동일)
Local 3DGS와 Global 3DGS는 iteratively optimized
Experiment
GS 말고 pose-free NeRF methods와 비교했을 때 pose trajectory와 scene reconstruction 측면에서 본 논문이 훨씬 더 좋은 성능
COLMAP + 3DGS와 비교했을 때 본 논문과 동일한 성능
우리는 pose estimation을 할 때 photometric loss에만 의존했음
photometric loss에만 의존해서 relative camera pose를 구했기 때문에 \(RPE_r, RPE_t\) 값이 Nope-NeRF보다 조금 높게 나타날 수 있음
Nope-NeRF에서는 chamfer distance(point cloud 집합인 \(P_i\) 와 \(P_j\) 가 서로 가까워지도록 하는 point cloud loss) 추가하여 pose accuracy 높임
Nope-NeRF에서와 달리 본 논문에서 depth loss를 쓰면 pose accuracy는 비슷하고 novel view synthesis performance는 오히려 떨어지므로 depth loss는 안 씀
Limitation
camera pose와 3DGS를 동시에 순차적으로 optimize하므로 video stream 혹은 ordered image 집합에만 적용 가능 \(\rightarrow\) unordered image 집합에도 적용하는 future work 필요