DepthPro: Sharp Monocular Metric Depth in Less Than a Second
1초 미만의 처리 속도로 정확한 깊이 정보 제공
애플이 최근 단일 이미지에서 높은 정확도와 속도로 깊이를 예측할 수 있는 혁신적인 인공지능 모델 ‘Depth Pro’를 공개했다. 이 모델은 기존 기술의 한계를 뛰어넘어 정확도, 속도, 세밀함을 모두 갖춘 것이 특징이다.
Depth Pro는 225만 픽셀(1536×1536) 해상도의 깊이 맵을 단 0.3초 만에 생성할 수 있다. 이는 기존 최고 성능 모델들과 비교해 3배 이상 높은 해상도이며, 처리 속도 역시 2배 이상 빠르다. 특히 물체의 경계를 정확하게 포착하는 능력이 뛰어나 머리카락이나 털과 같은 미세한 구조도 정교하게 표현한다.
연구팀의 한 멤버는 “Depth Pro는 단일 이미지에서 절대적 스케일의 깊이 정보를 빠르고 정확하게 예측할 수 있어, 컴퓨터 비전 분야에 새로운 지평을 열 것”이라고 말했다.
다양한 기술 혁신으로 성능 향상
Depth Pro의 뛰어난 성능 뒤에는 여러 가지 기술적 혁신이 있다. 연구팀은 효율적인 다중 스케일 비전 트랜스포머(Vision Transformer) 구조를 채택해 전체 이미지의 맥락을 파악하면서도 고해상도의 세부 정보를 포착할 수 있도록 했다.
이 구조는 이미지를 여러 크기의 패치로 나누어 처리한 후, 이를 다시 조합하는 방식으로 작동한다. 이를 통해 전역적인 정보와 지역적인 세부 사항을 동시에 고려할 수 있게 되어, 더욱 정확하고 세밀한 깊이 맵 생성이 가능해졌다.
또한 실제 데이터셋과 합성 데이터셋을 결합한 독특한 훈련 프로토콜을 개발했다. 이 프로토콜은 두 단계로 구성되어 있다. 첫 번째 단계에서는 다양한 실제 및 합성 데이터셋을 사용해 모델의 일반화 능력을 향상시킨다. 두 번째 단계에서는 고품질의 합성 데이터셋만을 사용해 경계 추적 능력을 집중적으로 개선한다.
연구팀은 “이러한 훈련 방식을 통해 모델이 실제 세계의 복잡성을 이해하면서도 정확한 깊이 정보를 추출할 수 있게 되었다”고 설명했다.
새로운 평가 메트릭 개발
Depth Pro 개발 과정에서 연구팀은 깊이 맵의 경계 정확도를 평가하기 위한 새로운 메트릭을 개발했다. 기존의 평가 방식은 주로 전체적인 깊이 정확도에 초점을 맞추고 있어, 물체의 경계나 미세한 구조를 얼마나 잘 포착하는지 측정하기 어려웠다.
새로운 메트릭은 이미지 매팅(matting)이나 분할(segmentation) 데이터셋을 활용해 경계의 정확도를 정량적으로 측정한다. 이를 통해 모델이 생성한 깊이 맵이 실제 물체의 윤곽을 얼마나 정확하게 따르는지 평가할 수 있게 되었다.
연구팀의 한 멤버는 “이 메트릭을 통해 우리는 Depth Pro가 기존 모델들보다 경계 추적 능력에서 크게 앞서 있음을 확인할 수 있었다”고 말했다.
광각 예측 능력 향상
Depth Pro의 또 다른 주목할 만한 특징은 단일 이미지에서 카메라의 광각을 정확하게 예측할 수 있다는 점이다. 이는 절대적인 깊이 값을 계산하는 데 필수적인 정보다.
연구팀은 깊이 예측 네트워크의 중간 특징들을 활용해 광각을 추정하는 별도의 네트워크 헤드를 개발했다. 이 접근 방식은 기존의 방법들보다 훨씬 정확한 광각 추정 결과를 보여주었다.
“정확한 광각 추정은 실제 세계의 스케일을 반영한 깊이 맵을 생성하는 데 큰 도움이 된다. 이를 통해 Depth Pro는 카메라 정보가 없는 임의의 이미지에 대해서도 정확한 메트릭 깊이를 예측할 수 있게 되었다.”고 연구팀은 설명했다.
폭넓은 응용 가능성 제시
Depth Pro의 뛰어난 성능은 다양한 응용 분야에서의 활용 가능성을 열어주고 있다. 특히 새로운 시점에서의 이미지 생성, 고급 이미지 편집, 조건부 이미지 생성 등에서 큰 잠재력을 보여주고 있다.
예를 들어, 단일 이미지에서 새로운 시점의 이미지를 생성하는 작업에서 Depth Pro는 기존 모델들보다 훨씬 자연스럽고 정확한 결과를 만들어낼 수 있다. 물체의 경계를 정확하게 포착하고 미세한 구조까지 보존하기 때문에, 시점 변화에 따른 왜곡이나 아티팩트가 크게 줄어든다.
또한 이미지 편집 분야에서도 Depth Pro는 큰 장점을 가진다. 정확한 깊이 정보를 바탕으로 물체의 크기나 위치를 자연스럽게 조정할 수 있으며, 새로운 물체를 추가하거나 제거할 때도 기존 장면과의 조화를 쉽게 이룰 수 있다.
조건부 이미지 생성 분야에서도 Depth Pro의 활용 가능성이 크다. 텍스트나 스케치 등을 입력으로 받아 이미지를 생성할 때, Depth Pro가 제공하는 정확한 깊이 정보를 활용하면 더욱 현실감 있고 일관된 3D 구조를 가진 이미지를 만들어낼 수 있다.
향후 전망
Depth Pro의 등장은 컴퓨터 비전 분야에 새로운 가능성을 제시하고 있다. 연구팀은 “Depth Pro는 단순히 깊이 예측 모델을 넘어, 다양한 비전 태스크를 위한 기반 모델로 발전할 수 있을 것”이라고 전망했다.
향후 연구에서는 Depth Pro를 더욱 다양한 환경과 조건에서 테스트하고, 실시간 비디오 처리와 같은 더 challenging한 태스크로 확장할 계획이라고 한다. 또한 AR/VR, 자율주행, 로보틱스 등 실제 산업 분야에서의 활용 가능성도 지속적으로 탐구할 예정이다.
Depth Pro의 코드와 사전 학습된 모델 가중치는 GitHub를 통해 공개되었다. 이를 통해 전 세계의 연구자들과 개발자들이 Depth Pro를 기반으로 새로운 응용 프로그램을 개발하고, 더 나은 컴퓨터 비전 기술을 만들어낼 수 있을 것으로 기대된다.
기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기