AI로 사진 한 장에서 다른 각도의 이미지를 만들어내는 기술은 이미 존재한다. 그런데 기존 방식은 각도를 바꿀 때마다 물체의 모양이 뒤틀리거나 깊이감이 어긋나는 문제가 있었다. 카이스트(KAIST) AI 연구팀이 2026년 3월 발표한 논문 ‘Repurposing Geometric Foundation Models for Multi-view Diffusion’은 이 문제를 근본적으로 개선하는 새로운 접근법을 제안했다. 3D 공간의 기하학적 구조를 이해하는 AI 모델의 ‘내부 언어’를 그대로 이미지 생성의 기반으로 활용한 것이다. 이 방법은 기존 대비 학습 속도를 4.4배 이상 끌어올리면서도 이미지 품질과 3D 정합성 모두에서 경쟁력 있는 성능을 보였다.
기존 다시점 이미지 생성의 구조적 한계
다시점 합성(Novel View Synthesis, NVS)이란 하나의 이미지를 입력받아 다른 시점에서 본 장면을 새로 만들어내는 기술이다. 가상현실(VR), 증강현실(AR), 자율주행 시뮬레이션 등에서 핵심적으로 쓰이는 기술로, 최근에는 확산 모델(Diffusion Model)을 활용한 방법이 주류를 이루고 있다. 확산 모델이란 이미지에 노이즈를 점차 더했다가 다시 걷어내는 과정을 학습해 새로운 이미지를 생성하는 AI 기술이다.
문제는 대부분의 확산 모델이 VAE(Variational Autoencoder, 변이 오토인코더)라는 압축 도구의 잠재 공간(Latent Space)에서 작동한다는 점이다. 잠재 공간이란 이미지의 핵심 정보를 압축해 저장하는 일종의 ‘요약 공간’이다. VAE는 원래 하나의 이미지를 압축하고 복원하도록 설계되었기 때문에, 여러 시점 간의 3D 기하학적 관계를 이해하지 못한다. 비유하자면, 건축물의 정면 사진만 보고 측면을 그리라고 했을 때, 건물의 입체 구조를 모른 채 ‘대충 비슷하게’ 그리는 것과 같다. 그 결과 시점을 바꿀 때마다 물체의 형태가 왜곡되거나, 깊이가 맞지 않는 ‘기하학적 불일치’ 문제가 반복적으로 나타났다.

기하학 AI의 내부 언어를 빌려온 GLD 프레임워크
카이스트(KAIST) AI 연구팀과 뉴욕대학교(NYU), 인텔 랩스(Intel Labs)가 공동 개발한 GLD(Geometric Latent Diffusion)는 이 문제에 대한 발상의 전환이다. GLD는 기하학 파운데이션 모델(Geometric Foundation Model)이 내부적으로 사용하는 특성 공간(Feature Space)을 확산 모델의 잠재 공간으로 직접 활용한다. 기하학 파운데이션 모델이란 대규모 데이터로 사전 학습하여 이미지 속 깊이, 카메라 위치, 3D 점군 등 공간의 기하학적 구조를 정밀하게 이해하는 AI 모델을 말한다.
구체적으로 GLD는 뎁스 애니싱 3(Depth Anything 3, DA3)라는 기하학 모델의 내부 특성을 빌려온다. DA3는 이미지를 처리할 때 여러 단계의 특성 레이어를 거치는데, 연구팀은 이 중에서 기하학적 정합성과 이미지 복원 품질이 동시에 최적화되는 특성 레이어를 찾아냈다. 이 특성 공간에서 확산 모델을 학습시키면, 모델이 이미지를 생성할 때 ‘3D 공간 구조를 이미 알고 있는 상태’에서 출발하게 된다. 건축물의 설계도를 먼저 이해한 뒤 각 면의 사진을 그리는 것과 같은 원리이다.
더 주목할 점은 GLD가 대규모 텍스트-이미지 사전 학습 없이 처음부터(from scratch) 학습된다는 것이다. 기존의 유력한 방법들은 스테이블 디퓨전(Stable Diffusion)과 같은 대형 생성 모델을 미세 조정하는 방식에 의존했다. GLD는 이러한 사전 학습 없이도 경쟁력 있는 성능을 달성했으며, 이는 기하학적 특성 공간 자체가 다시점 이미지 생성에 본질적으로 적합하다는 것을 보여준다.
학습 속도 4.4배, 이미지 품질과 3D 정합성 동시 향상
GLD의 성능은 수치로 확인된다. 카이스트 연구팀에 따르면 GLD는 Re10K 테스트셋 중 4,000개 이미지로 디코더 성능을 평가, 디코더 재구성에서는 PSNR 35.41dB를 기록했으며, 실제 다시점 합성에서는 약 16dB 수준의 성능을 보였다. PSNR(Peak Signal-to-Noise Ratio)은 원본과 생성 이미지의 유사도를 측정하는 지표로, 숫자가 높을수록 원본에 가까운 고품질 이미지임을 뜻한다. 이 수치는 스테이블 디퓨전 VAE(34.53dB)와 SDXL VAE(34.97dB)를 넘어서는 것으로, 기하학 모델의 특성 공간이 이미지 복원에도 충분한 성능을 갖추고 있음을 증명한다.
다시점 합성 실험에서는 GLD가 Re10K와 DL3DV 벤치마크 모두에서 PSNR, SSIM(구조적 유사도), LPIPS(지각적 유사도) 등 2D 이미지 품질 지표 전반에 걸쳐 VAE 기반, DINOv2 기반 모델을 일관되게 앞섰다. 3D 정합성 지표에서도 같은 결과가 나왔다. 이 차이가 의미하는 바는 분명하다. 하나의 사진으로 여러 각도의 이미지를 만들어야 하는 실제 응용 상황에서, GLD로 생성한 이미지는 시점이 바뀌어도 물체의 형태와 깊이가 자연스럽게 유지된다는 뜻이다.
학습 효율 면에서도 차이가 두드러진다. GLD는 기존 VAE 잠재 공간 대비 학습 속도가 4.4배 이상 빠르다. 이 가속은 기하학 모델의 특성 공간이 이미 3D 구조 정보를 내포하고 있어, 확산 모델이 기하학적 관계를 처음부터 새로 배울 필요 없이 더 빠르게 수렴하기 때문이다. 연구 개발 비용과 시간이 중요한 산업 현장에서, 이 4.4배의 속도 차이는 동일 예산으로 훨씬 많은 실험과 개선을 가능하게 만드는 실질적 이점이다.
깊이 지도와 3D 복원까지, 추가 학습 없는 제로샷 기하학 예측
GLD의 또 다른 강점은 제로샷(Zero-shot) 기하학 예측 능력이다. 제로샷이란 해당 작업을 위한 별도의 학습 없이도 곧바로 수행할 수 있다는 뜻이다. GLD가 생성한 잠재 벡터(Latent)는 DA3의 동결된(frozen) 디코더를 그대로 통과시키면 깊이 지도(Depth Map)와 3D 점군(Point Cloud)으로 바로 변환된다. 깊이 지도란 이미지의 각 픽셀이 카메라로부터 얼마나 떨어져 있는지를 나타내는 지도이고, 3D 점군은 공간상의 수많은 점으로 물체의 입체적 형태를 표현한 데이터이다.
기존 방법에서는 깊이 추정이나 3D 복원을 위해 별도의 모델을 추가로 학습시켜야 했다. GLD는 이 과정을 완전히 생략한다. 이미지 생성과 3D 구조 복원이 하나의 파이프라인 안에서 자연스럽게 이루어지는 것이다. 이는 자율주행 시뮬레이션에서 주변 환경의 다양한 시점 이미지와 깊이 정보를 동시에 필요로 하는 경우, 혹은 로봇 비전 시스템이 적은 수의 사진으로 공간 구조를 파악해야 하는 경우에 특히 유용하다.
AI 이미지 생성의 다음 단계, 기하학이 열쇠가 될 수 있을까
GLD의 접근법이 흥미로운 이유는 ‘만들어내는 AI’와 ‘이해하는 AI’의 경계가 허물어지고 있다는 점이다. 지금까지 이미지를 생성하는 모델과 3D 구조를 분석하는 모델은 별개의 영역으로 발전해왔다. GLD는 구조를 분석하는 모델의 ‘지식’을 이미지를 만드는 모델의 ‘언어’로 전환함으로써, 두 영역을 하나의 프레임워크로 통합했다.
다만 이 연구가 주로 정적 실내 장면(Re10K)과 대규모 3D 장면(DL3DV)에서 검증된 만큼, 움직이는 물체가 포함된 동적 장면이나 극단적 시점 변화에서도 같은 수준의 성능을 유지할 수 있을지는 두고 볼 필요가 있다. 또한 DA3 외에 VGGT라는 대안적 기하학 모델로도 실험이 이루어졌지만, 어떤 기하학 모델이 어떤 응용 분야에 최적인지에 대한 판단은 후속 연구가 더 쌓여야 가능할 것이다.
그럼에도 확실한 것은, ‘기하학적 이해’가 이미지 생성의 품질을 근본적으로 끌어올릴 수 있다는 방향성이 이 연구를 통해 구체적 수치로 확인되었다는 점이다. 사진 한 장에서 다양한 각도의 이미지와 3D 구조를 동시에 뽑아내야 하는 사용자라면, VAE 기반 생성 모델을 쓸 것인지, 아니면 기하학 모델의 특성 공간을 활용할 것인지 선택의 기준이 달라질 수 있는 시점이 다가오고 있다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q. GLD는 일반인도 사용할 수 있는 기술인가요? A. 현재 GLD는 연구 단계의 기술로, 카이스트 연구팀이 깃허브(GitHub)를 통해 코드를 공개하고 있습니다. 프로그래밍 지식이 필요하지만, 향후 이 기술이 상용 3D 생성 도구나 AR·VR 플랫폼에 탑재될 가능성이 있습니다.
Q. 기존 스테이블 디퓨전과 GLD는 어떻게 다른가요? A. 스테이블 디퓨전은 텍스트로 이미지를 생성하는 범용 모델이고, GLD는 한 장의 사진에서 여러 각도의 이미지를 만드는 데 특화되어 있습니다. 가장 큰 차이는 GLD가 3D 공간 구조를 이해하는 기하학 모델의 특성을 활용해 시점 간 일관성을 유지한다는 점입니다.
Q. 학습 속도가 4.4배 빠르다는 것은 실제로 어떤 의미인가요? A. AI 모델을 학습시키려면 대량의 GPU 컴퓨팅 자원과 시간이 필요합니다. 학습 속도가 4.4배 빠르다는 것은 같은 성능을 내는 데 필요한 시간과 비용이 약 4분의 1로 줄어든다는 뜻입니다. 연구자와 기업 모두에게 실질적인 비용 절감 효과를 의미합니다.
기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: Repurposing Geometric Foundation Models for Multi-view Diffusion
이미지 출처: AI 생성 콘텐츠
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.






![[AI와 인간 사이] 앤트로픽의 하네스 유출은 코딩의 패러다임을 바꾸고 있다](https://aimatters.co.kr/wp-content/uploads/2026/04/AI와-인간-사이-앤트로픽의-하네스-유출은-코딩의-패러다임을-바꾸고-있다.png)
