스테이블 AI(Stability AI)가 19일(현지 시간) 자사 홈페이지를 통해 2D 이미지를 3D 영상으로 변환하는 ‘스테이블 버추얼 카메라(Stable Virtual Camera)’를 연구 프리뷰 형태로 공개했다. 이 모델은 복잡한 재구성 과정 없이도 실감나는 깊이감과 원근감을 구현한다.
스테이블 버추얼 카메라는 단 하나의 이미지만으로도 3D 영상을 생성할 수 있으며, 필요에 따라 최대 32개까지의 이미지를 입력할 수 있다. 이 모델은 360°, 나선형, 줌인/아웃, 전진/후진 등 14가지 다양한 동적 카메라 경로를 지원하여 사용자가 원하는 시점에서 영상을 생성할 수 있다. 또한 추가 훈련 없이도 정사각형(1:1), 세로(9:16), 가로(16:9) 등 다양한 화면비율의 영상을 제작할 수 있으며, 최대 1,000프레임까지 3D 일관성을 유지하여 매끄러운 영상 경험을 제공한다.
스테이블 버추얼 카메라는 새로운 시점 합성(Novel View Synthesis) 벤치마크에서 기존 모델들을 능가하는 성능을 보여준다. 두 단계의 절차적 샘플링 과정(앵커 뷰 생성 후 목표 뷰 렌더링)을 통해 매끄럽고 일관된 결과를 제공한다. 인간, 동물, 물과 같은 동적 텍스처가 포함된 이미지나 모호한 장면에서는 품질이 저하될 수 있으며, 복잡한 카메라 경로에서는 깜빡임 현상이 발생할 수 있다.
비상업적 라이선스 하에 연구 목적으로 무료 사용 가능하며, 허깅페이스(Hugging Face)에서 가중치를, 깃허브(GitHub)에서 코드를 다운로드할 수 있다.
해당 발표에 대한 자세한 사항은 링크에서 확인할 수 있다.
이미지 출처: 스테이블AI
기사는 클로드와 챗GPT를 활용해 작성되었습니다.
관련 콘텐츠 더보기