티스토리 뷰
NoPe-NeRF: Optimising Neural Radiance Field with No Pose Prior
상솜공방 2025. 3. 25. 12:22Abstract
논문의 저자들은 카메라 포즈 정보 없이 NeRF를 통해 사진을 입체화하는 방법을 제안한다.
1. Introduction
(1) NeRF 학습의 전처리
NeRF가 요구하는 전처리: COLMAP을 이용한 카메라 파라미터 추정
COLMAP의 단점:
- 처리 시간이 길다.
- 미분 가능성(differentiability)이 없어 딥러닝과의 결합이 어렵다.
(2) 카메라 포즈를 추정하는 기존의 연구
연구된 모델: NeRFmm, BARF, SC-NeRF
한계점: LLFF와 같은 forward-facing scene에서는 좋은 성능을 보였으나, 다이나믹한 카메라 이동에서 위치 추정 실패
원인:
- 이미지간의 상대적인 포즈를 고려하지 않고, 각 이미지마다 독립적으로 카메라 포즈를 추정함. SLAM과 Visual Odmetry는 이미지간의 상대적 포즈를 고려하여 그 성능을 높인 것에 아이디어를 얻음.
- Radiance field의 형태-복사 모호성 (shape-radiance ambiguity\) 문제가 있는 상황에서, 카메라 파라미터까지 추정하려고 하면 모호성이 증가해 학습 수렴이 느려짐.
(3) 저자들의 해결방안
단안 깊이 추정 (mono depth estimation): 하나의 사진으로 깊이를 추정하는 기술
해당 기술의 장점:
다중 시점 스테레오 (multi-view stereo) 기반의 깊이 추정과 달리 카메라 파라미터를 요구하지 않는다.
해당 기술의 한계:
하나의 사진에서 깊이를 추정하므로, 깊이 맵 사이에 다중 시점 일관성 (multi-view consistency)이 없다.
저자들의 보완:
- 단안깊이 맵의 왜곡을 없애기 위해 변환하고, 이를 NeRF가 렌더링한 깊이맵과 비교하며 왜곡을 없앤다.
- 이렇게 얻어진 왜곡이 없는 깊이 맵에 두 가지 손실 함수를 적용하여 카메라 포즈를 좀 더 정확히 예측한다.
- 포인트 클라우드 간에 챔퍼 거리를 줄이도록 학습하여 카메라 포즈를 최적화.
- 연속된 사진의 같은 픽셀은 같은 표면을 표현하므로, 두 픽셀의 색상값을 줄이도록 학습하여 카메라 포즈를 최적화.
기존의 문제점 1 | 이미지간의 상대적 포즈를 고려하지 않음. |
저자의 해결방안 | 인접한 프레임의 포인트 클라우드간 챔퍼 거리를 줄이며 카메라 포즈를 더욱 정확히 예측. |
기존의 문제점 2 | NeRF는 광선과 물체가 맞닿는 지점을 확률로 예측하기에 뿌옇고 희미한 경계가 종종 생김. |
저자의 해결방안 | 카메라 파라미터를 요구하지 않는 단안 깊이맵을 추가적으로 사용. |
추가적인 문제점 | 하지만, 단안 깊이 맵은 사진간의 일관된 깊이 관계를 알기 어려움. |
추가적인 해결방안 | NeRF의 딥러닝 네트워크를 통해 이 일관성이 반영된 깊이맵을 만들고, 단안 깊이맵과 비교하며 이 둘을 동시에 최적화 함. 이 과정에서 연속된 사진 사이의 카메라 위치 관계를 학습시켜 더욱 정확한 카메라 포즈 예측. |
2. Related Works
(1) Novel View Synthesis
NeRF는 현실적인 렌더링이 가능한 최근 가장 널리 사용되는 장면 표현 방식이다. 다양한 연구들이 추가 정규화, 깊이 사전 정보 등을 활용하여 NeRF의 성능을 향상시켰다. 또한 일부 연구는 NeRF의 학습과 렌더링 속도를 높이는 방법을 개발했다. 그러나 아직도 NeRF는 COLMAP 등의 SfM 알고리즘을 통해 미리 계산된 카메라 파라미터를 사전 정보로 사용한다.
(2) 포즈 최적화를 수행하는 NeRF
최근 연구는 미리 계산된 카메라 파라미터 없이 NeRF를 학습하려는 방향으로 활발히 진행 중이다. 이러한 접근법은 크게 두 가지로 나뉜다. 첫 번째는 SLAM 기반 방법으로, RGB-D 입력 또는 SLAM 추적 시스템으로부터 얻은 정확한 카메라 포즈를 필요로 한다. 두 번째는 NeRF와 직접적으로 카메라 포즈를 함께 최적화하는 방식으로, 본 논문에서는 이를 포즈가 주어지지 않은 NeRF(unposed-NeRF)라고 부른다.
포즈가 주어지지 않은 NeRF 방법들은 카메라 포즈를 NeRF와 함께 최적화하며, 최근 연구들은 카메라 내부(intrinsics), 외부(extrinsics) 파라미터, 카메라 왜곡(distortion), 위치 인코딩(positional encoding), 기하학적 손실(geometric loss) 등을 활용하여 성능을 개선하였다. 하지만 이러한 방법들은 정면 방향의 데이터셋에서는 좋은 결과를 보였지만, 카메라 움직임이 크고 복잡한 경우 여전히 한계가 있다.
3. Method
수식을 이해하기 위해 직접 써가며 정리하였습니다.







4. Experiment
작성 예정.
'논문 분석 > 3D 컴퓨터 비전' 카테고리의 다른 글
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (0) | 2023.09.29 |
---|