Edify 3D: Scalable High-Quality 3D Asset Generation
2분 만에 3D 캐릭터를 만드는 마법: 에디파이 3D란?
엔비디아가 지난달 새롭게 선보인 에디파이 3D는 텍스트나 이미지만으로 고품질 3D 에셋을 생성할 수 있는 혁신적인 AI 솔루션이다. 엔비디아에서 공개한 연구 논문에 따르면, 디퓨전 모델을 기반으로 개발된 이 기술은 여러 시점에서 객체의 RGB 이미지와 표면 법선 이미지를 합성한 후, 이를 통해 3D 형상과 텍스처, PBR 재질을 재구성한다. 특히 2분이라는 짧은 시간 안에 상세한 지오메트리, 깔끔한 형상 토폴로지, 4K 해상도의 텍스처와 재질을 생성할 수 있다는 점이 주목할 만하다.
에디파이 3D는 크게 두 가지 핵심 기능을 제공하는데, 텍스트 설명만으로 3D 에셋을 생성하는 ‘텍스트-3D 생성’ 기능과 참조 이미지에서 자동으로 전경 객체를 식별하여 3D로 변환하는 ‘이미지-3D 생성’ 기능이 그것이다.
AI가 3D 모델을 만드는 비밀: 핵심 기술 해설
에디파이 3D의 핵심에는 디퓨전 모델과 트랜스포머라는 두 가지 신경망 구조가 있다. 이 구조들은 훈련 데이터가 늘어남에 따라 생성 품질을 크게 향상시킬 수 있는 확장성을 보여주었다. 기술의 근간이 되는 에디파이 이미지 모델은 2.7억 개의 파라미터를 가진 U-Net 구조를 사용하여 픽셀 공간에서 디퓨전을 수행한다.
다중 시점 디퓨전 모델은 여러 각도에서 객체의 외관과 표면 특성을 합성하며, 텍스트나 이미지를 입력값으로 받아들인다. 트랜스포머 기반 재구성 모델은 이렇게 만들어진 다중 시점 이미지들을 바탕으로 3D 객체의 신경 표현을 잠재 토큰으로 변환하고, 이를 통해 형태와 질감, 재질을 정교하게 구현해낸다.
똑똑해진 AI: 여러 각도에서 캐릭터 만들기
에디파이 3D는 비디오 생성 방식과 유사한 접근법으로 다중 시점 이미지를 생성한다. 기본 다중 시점 디퓨전 모델이 입력된 텍스트와 카메라 각도를 바탕으로 기본적인 외관을 만들어내면, 컨트롤넷 모델이 이를 보완하여 객체의 표면 특성을 정교하게 구현한다. 업스케일링 컨트롤넷은 이미지의 해상도를 더욱 높여 디테일한 표현을 가능하게 한다.
연구진의 실험 결과, 4개 시점보다 8개 시점으로 훈련된 모델이 더 자연스러운 이미지와 더 나은 다중 시점 일관성을 보여주었으며, 생성되는 시점의 수가 증가할수록 3D 재구성의 품질도 향상되는 것으로 나타났다.
게임부터 영화까지: 에디파이 3D의 활용 분야
에디파이 3D는 비디오 게임 디자인, 확장현실(XR), 영화 제작, 시뮬레이션 등 다양한 산업 분야에서 활용될 수 있다. 특히 정교한 메시 구조, 고해상도 텍스처, 재질 맵이 요구되는 프로덕션 레벨의 3D 콘텐츠 제작을 획기적으로 간소화할 수 있다. 생성된 3D 메시는 지오메트리 단순화, UV 매핑 생성, 텍스처와 재질 맵 베이킹 등 정교한 후처리 과정을 거쳐 실제 제작 현장의 요구사항을 충족하는 수준으로 완성된다.
더 똑똑한 3D 생성을 위한 데이터 학습 방법
에디파이 3D는 방대한 이미지 데이터와 3D 모델 데이터를 학습하여 성능을 향상시킨다. 모든 3D 데이터는 통일된 형식으로 변환되고, AI 분류기를 통해 부분적 3D 스캔, 대규모 장면, 형상 콜라주, 보조 구조물 등을 필터링하는 엄격한 품질 관리가 이루어진다. 카메라 파라미터 샘플링에서는 절반의 이미지는 고정된 앙각과 일관된 내부 파라미터로, 나머지는 무작위 카메라 포즈와 내부 요소로 렌더링하는 이중 전략을 사용한다. 또한 정확한 포즈 정렬과 고품질 렌더링 과정을 거쳐 학습 데이터의 질을 높이며, 비전-언어 모델을 활용해 자동으로 캡션을 생성하는 기능도 갖추고 있다.
미래를 여는 기술: 3D 가상 세계 제작까지 가능
에디파이 3D는 단순한 3D 모델 생성을 넘어 대규모 가상 환경 구축까지 가능하다. 대형 언어 모델(LLM)과 연동하여 3D 객체들의 위치와 크기를 자동으로 계획하고, 이를 바탕으로 텍스트 프롬프트에 부합하는 현실적이고 복잡한 3D 공간을 구현할 수 있다. 개별적으로 생성된 3D 에셋들로 씬을 구성하기 때문에, 아티스트의 창작 작업, 3D 디자인, 실재형 AI 시뮬레이션 등 다양한 전문 분야에서 자유롭게 편집하고 활용할 수 있다.
해당 논문의 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기