• Home
  • AI Report
  • 텍스트만 입력하면 0.4초 만에 3D 생성…엔비디아 ‘라떼3D’ 공개

텍스트만 입력하면 0.4초 만에 3D 생성…엔비디아 ‘라떼3D’ 공개

LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis
이미지출처: 'LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis '

LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis



“0.4초 생성” 시대를 연 엔비디아의 돌파구

엔비디아(NVIDIA)가 개발한 새로운 텍스트 기반 3D 생성 AI 모델 ‘라떼3D(LATTE3D)’가 기존의 한계를 획기적으로 개선했다. 엔비디아가 공개한 연구 논문에 따르면, 단일 A6000 GPU만으로 텍스트 프롬프트 입력 후 400밀리초 만에 고품질의 3D 객체를 생성할 수 있으며, 한 번에 4개의 샘플을 동시에 생성할 수 있어 사용자의 창의적인 3D 콘텐츠 제작을 실시간으로 지원할 수 있게 되었다.

10만 개 프롬프트로 학습한 초고성능 AI

기존의 텍스트 기반 3D 생성 모델들은 한 번 생성하는 데 최대 1시간까지 걸리는 최적화 과정이 필요했다. ATT3D와 같은 선행 모델들은 여러 프롬프트를 동시에 처리하는 ‘분할 최적화(amortized optimization)’ 방식으로 속도를 개선했지만, 수백에서 수천 개의 제한된 프롬프트 세트에서만 작동했으며 고주파 기하학적 특징과 텍스처 세부 사항을 표현하지 못했다.

라떼3D는 이러한 문제를 해결하기 위해 대규모로 확장 가능한 아키텍처를 구축하고, 3D 인식 확산 프라이어와 형상 정규화, 모델 초기화를 통해 3D 데이터를 효과적으로 활용했다. 또한 신경망 필드와 텍스처 표면 생성을 모두 분할 최적화하는 방식을 도입하여 10만 개 이상의 프롬프트로 처리 범위를 크게 확장했다.



초고해상도 이미지까지 처리하는 2단계 파이프라인

라떼3D는 128×128 해상도의 트리플레인을 사용하여 두 단계의 파이프라인으로 생성을 수행한다. 첫 단계인 볼륨 기반 단계에서는 256×256 해상도로 신경 방사장(neural field)을 최적화하고, 두 번째 표면 기반 단계에서는 1024×1024 해상도의 이미지 렌더링이 가능한 부호화된 거리장(signed distance field)과 텍스처 필드를 초기화하고 최적화한다.

방대한 데이터로 실현한 높은 범용성

라떼3D는 세 가지 주요 데이터셋을 활용했다. 12,000개의 프롬프트로 구성된 animal-style 데이터셋, 101,608개의 프롬프트와 34,000개의 3D 형상을 포함한 gpt-101k 데이터셋, 그리고 Objaverse 데이터셋에서 엄선된 고품질 3D 에셋을 사용했다. 이러한 방대한 데이터셋을 통해 모델의 범용성과 생성 품질을 크게 향상시켰다.

실시간 고품질 렌더링으로 구현하는 디테일

라떼3D는 생성된 3D 객체의 품질을 실시간으로 향상시킬 수 있는 테스트 타임 최적화 기능을 제공한다. 256×256 해상도의 볼륨 렌더링부터 1024×1024 해상도의 래스터화 렌더링까지 지원하며, 실시간 렌더링으로 미세한 디테일 표현이 가능하다. 또한 기존 3D 에셋을 다양한 스타일로 변형할 수 있으며, 표준 렌더링 소프트웨어와 호환되는 메시와 텍스처 이미지를 생성할 수 있다.

MVDream 대비 10배 빠른 속도로 동일 품질 구현

Amazon Mechanical Turk를 통한 사용자 연구 결과, 라떼3D는 MVDream보다 10배 빠른 최적화 비용으로 동등한 품질의 결과물을 생성할 수 있었다. Render-FID와 CLIP 점수에서도 경쟁력 있는 성능을 보였으며, 특히 보지 못한 프롬프트에 대한 일반화 성능도 우수했다. 400밀리초라는 짧은 생성 시간에도 불구하고 기존 최고 성능 모델들과 비교했을 때 사용자 선호도 조사에서 경쟁력 있는 결과를 기록했다.

더 진화할 라떼3D의 미래

라떼3D는 복합 객체가 포함된 프롬프트를 처리하는데 어려움을 겪으며, 세밀한 기하학적 특징을 생성하는데 한계가 있다. 또한 이미지 확산 모델의 이해도에 의존하여 텍스트를 해석하며, 2단계에서는 기하학적 결함을 수정할 수 없다는 제약이 있다.

해당 논문의 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




텍스트만 입력하면 0.4초 만에 3D 생성…엔비디아 ‘라떼3D’ 공개 – AI 매터스 l AI Matters