Search

2D 이미지로 3D 모델 만드는 AI, 데이터 부족 문제를 이렇게 풀었다

AI 매터스 기사 썸네일_Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation
이미지 출처: 이디오그램 생성

3D 콘텐츠를 만드는 AI는 왜 2D 이미지 생성 AI보다 훨씬 뒤처져 있을까. 답은 간단하다. 데이터가 부족하기 때문이다. 중국 선전 중문대학교(CUHK)와 메시AI(Meshy AI) 연구팀은 이 문제를 정면으로 돌파한 새로운 AI 모델 ‘옴니123(Omni123)’을 공개했다. 이 모델은 텍스트, 이미지, 3D를 따로 만드는 게 아니라 한 번에 이어서 만들어내는 방식이다. 3D 데이터가 부족하다면, 풍부한 2D 이미지 데이터를 활용해 3D 구조를 학습하자는 발상이다.

3D AI가 부딪힌 근본적 한계

3D 생성 AI는 오랫동안 ‘간접 우회’ 방식으로 작동해왔다. 다양한 방법이 존재하지만 대부분 텍스트 명령을 받으면 먼저 2D 이미지를 여러 장 생성하고, 이를 반복적으로 최적화하며 3D 형태로 끌어올리는 간접 방식을 활용한다. 이 과정은 느리고, 여러 각도에서 본 이미지 간 일관성이 떨어지며, 기하학적 왜곡이 자주 발생한다. 근본 원인은 데이터 격차다. 웹에는 수십억 장의 2D 이미지가 있지만, 고품질 3D 모델은 그 수가 수백만 개 수준에 불과하다. 2D 이미지 생성 AI가 GPT-4o(GPT-4o)나 나노바나나(Nano-Banana) 같은 통합 멀티모달 모델로 진화하는 동안, 3D AI는 여전히 제한된 데이터 안에서 허우적거리고 있었다.

연구팀은 여기서 핵심 질문을 던졌다. 2D 이미지에는 이미 3D 학습에 유용한 기하학적 정보를 담고 있지 않을까? 물체의 형태, 표면 질감, 공간 관계 같은 정보이다. 그렇다면 풍부한 2D 데이터를 활용해 3D 생성 능력을 강화할 수 있지 않을까. 옴니123은 바로 이 가설을 검증하기 위해 설계됐다.


그림 2. Omni123의 통합 멀티모달 프레임워크를 통한 3D 생성 및 편집 결과
그림 2. Omni123의 통합 멀티모달 프레임워크를 통한 3D 생성 및 편집 결과


텍스트-이미지-3D를 하나의 순환 고리로

옴니123의 핵심은 ‘교차 모달 생성 일관성(cross-modal generative consistency)’이라는 개념이다. 텍스트, 2D 이미지, 3D 형태를 각각 별개의 과제로 다루지 않고, 하나의 연속된 순환 고리로 연결한다. 예를 들어 “기모노를 입은 고양이”라는 텍스트가 입력되면, 모델은 먼저 그에 맞는 2D 이미지를 생성하고, 그 이미지를 3D 모델로 변환한 뒤, 다시 그 3D 모델을 다른 각도에서 본 2D 이미지로 렌더링하는 순환을 학습 과정에서 활용한다. 이 과정을 ‘의미-시각-기하학 순환(semantic-visual-geometric cycle)’이라고 부른다.

이 순환 구조가 중요한 이유는 각 단계가 서로를 제약하기 때문이다. 텍스트는 고수준의 의미를 제공하고, 2D 이미지는 외형과 부분적인 기하학 정보를 담으며, 3D 모델은 명시적인 공간 구조와 다시점 일관성을 보장한다. 모델이 이 세 가지를 동시에 만족하는 표현을 학습하도록 강제하면, 제한된 3D 데이터만으로도 훨씬 강건한 3D 생성 능력을 얻을 수 있다. 연구팀은 이를 ‘인터리브드 X-to-X 훈련 패러다임(interleaved X-to-X training paradigm)’이라는 방법론으로 구현했다.


그림 3. 텍스트·이미지·3D 형상을 단일 오토회귀 트랜스포머로 통합 처리하는 Omni123의 전체 아키텍처 구조
그림 3. 텍스트·이미지·3D 형상을 단일 오토회귀 트랜스포머로 통합 처리하는 Omni123의 전체 아키텍처 구조


서로 다른 데이터셋을 엮어 학습하는 법

옴니123은 텍스트-이미지, 이미지-3D, 3D-이미지 같은 다양한 쌍(pair) 데이터셋을 활용한다. 중요한 점은 텍스트-이미지-3D가 모두 완벽하게 정렬된 삼중 데이터(triplet)가 필요하지 않다는 것이다. 대신 각 모달리티 간 부분적으로 연결된 데이터만 있으면 된다. 예를 들어 어떤 데이터는 텍스트와 이미지만 있고, 다른 데이터는 이미지와 3D만 있어도 괜찮다. 모델은 텍스트·이미지·3D를 모두 토큰화해 하나의 시퀀스로 통합 학습한다.

여기서 핵심은 과제 간 간섭(task interference)을 최소화하는 것이다. 텍스트-이미지 생성은 주로 외형 분포를 모델링하는 반면, 텍스트-3D 생성은 일관된 기하학적 추론을 요구한다. 두 과제를 무작정 섞어 학습하면 서로 상충하는 그래디언트가 발생해 오히려 3D 표현 품질이 떨어질 수 있다. 옴니123은 이를 해결하기 위해 각 과제를 교차 방식으로 구성하고, 순환 고리를 통해 외형과 기하학 목표가 서로를 보완하도록 설계했다. 실험 결과, 이 방식은 유익한 지식 전이는 촉진하면서도 해로운 간섭은 억제하는 것으로 나타났다.

3D 편집도 텍스트 명령 하나로

옴니123의 또 다른 강점은 텍스트 기반 네이티브 3D 생성 및 편집 능력이다. 기존 방식은 3D 모델을 편집하려면 먼저 2D 이미지로 변환하고, 이미지를 수정한 뒤, 다시 3D로 끌어올리는 복잡한 과정을 거쳐야 했다. 옴니123은 이 모든 과정을 하나의 자기회귀 시퀀스 안에서 처리한다. 예를 들어 “고양이” 3D 모델에 “+기모노를 입힘”이라는 텍스트를 추가하면, 모델은 기존 3D 구조를 유지하면서 새로운 속성만 반영한 3D 모델을 직접 생성한다. 심지어 “+스케이트보드를 탐” 같은 연속 명령도 처리할 수 있다.

이는 2D 이미지 편집에서 GPT-4o나 나노바나나가 보여준 직관적 워크플로를 3D 영역으로 확장한 것이다. 사용자는 복잡한 3D 소프트웨어 없이도 텍스트 명령만으로 3D 콘텐츠를 생성하고 수정할 수 있다. 연구팀이 공개한 예시를 보면, 다양한 텍스트 프롬프트에 대해 생성된 2D 이미지와 3D 모델의 노멀 맵(normal map)에서 다시점 일관성과 기하학적 품질이 향상된 결과를 보여준다. 이는 모델이 단순히 2D 외형을 흉내 내는 것이 아니라, 실제로 3D 구조를 이해하고 생성한다는 증거다.

멀티모달 3D 세계 모델을 향한 첫걸음

옴니123의 등장은 3D 생성 AI가 데이터 부족이라는 구조적 한계를 우회할 수 있는 실질적 경로를 제시한다. 2D와 3D 생성 과정을 통합함으로써, 제한된 3D 데이터만으로도 의미 있는 성능 향상을 달성했다. 연구팀은 이 접근법이 확장 가능하며(scalable), 향후 더 큰 규모의 멀티모달 3D 세계 모델로 발전할 수 있다고 주장한다.

다만 아직 확인되지 않은 부분도 있다. 옴니123이 사용하는 순환 일관성 제약이 모든 유형의 3D 콘텐츠에서 동일하게 효과적인지, 특히 복잡한 장면이나 동적 객체에서도 같은 수준의 품질을 유지할 수 있는지는 추가 검증이 필요하다. 또한 2D 데이터에 내재된 편향이 3D 생성 결과에 어떤 영향을 미치는지도 주목할 필요가 있다. 그럼에도 불구하고, 이 연구는 3D AI가 2D AI의 풍부한 학습 자원을 활용해 자체 한계를 돌파할 수 있다는 가능성을 구체적으로 보여준다. 메타버스나 자율 가상 세계 같은 응용 분야에서 네이티브 3D 생성 능력은 필수적이다. 옴니123은 그 방향으로 나아가는 실질적인 한 걸음이다.



FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 옴니123은 기존 3D 생성 AI와 어떻게 다른가요?

기존 3D AI는 텍스트를 먼저 2D 이미지로 바꾸고, 그 이미지를 반복 최적화해 3D로 변환하는 간접 방식을 사용합니다. 옴니123은 텍스트, 2D 이미지, 3D 모델을 하나의 순환 고리로 연결해 직접 학습하므로, 일관성과 품질 측면에서 개선된 3D 생성이 가능합니다.

Q. 왜 2D 이미지 데이터를 3D 학습에 활용하나요?

웹에는 수십억 장의 2D 이미지가 있지만, 고품질 3D 모델은 수백만 개 수준입니다. 2D 이미지에는 물체의 형태, 질감, 공간 관계 같은 3D 정보가 이미 담겨 있으므로, 이를 활용하면 부족한 3D 데이터 문제를 완화할 수 있습니다.

Q. 텍스트 명령만으로 3D 모델을 편집할 수 있나요?

네, 옴니123은 “기모노를 입힘” 같은 텍스트 명령을 추가하면 기존 3D 모델을 유지하면서 새로운 속성만 반영한 3D 모델을 직접 생성합니다. 복잡한 3D 소프트웨어 없이도 직관적으로 3D 콘텐츠를 수정할 수 있는 가능성을 보여주었습니다.

기사에 인용된 리포트 원문은 arXiv 에서 확인할 수 있다.

리포트명: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

이미지 출처: AI 생성 콘텐츠

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

함샤우트 글로벌_우리는 광고비 없이 AI로 팝니다 이벤트 안내 기사 배너