• Home
  • AI Report
  • 멀티모달 AI의 새로운 접근, 트랜스퓨전(Transfusion)

멀티모달 AI의 새로운 접근, 트랜스퓨전(Transfusion)

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
이미지 출처: 미드저니 생성

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

최근 인공지능 연구에서 멀티모달 모델의 중요성이 부각되고 있는 와중에 메타와 서든캘리포니아대학(USC) 연구진이 이산 및 연속 데이터 양식을 모두 처리할 수 있는 새로운 LMM ‘트랜스퓨전(transfusion)’에 관한 논문을 아카이브에 게재했다.

. 멀티모달 모델은 텍스트와 이미지와 같은 다양한 형태의 데이터를 동시에 처리할 수 있어, 인간의 의사소통 방식을 보다 잘 반영한다. 이번에 소개할 트랜스퓨전(Transfusion)은 이러한 멀티모달 학습의 새로운 패러다임을 제시하며 주목받고 있다. 트랜스퓨전은 텍스트와 이미지를 하나의 통합된 모델로 처리하여 성능과 효율성을 극대화하는 혁신적인 접근 방식이다.

트랜스퓨전: 텍스트와 이미지의 통합 처리

트랜스퓨전은 텍스트와 이미지를 동시에 처리할 수 있는 단일 모델로, 각각의 데이터 유형에 맞는 학습 방식을 적용하여 성능을 최적화한다. 텍스트의 경우에는 언어 모델링을 통해 다음 토큰을 예측하는 방식으로 학습하고, 이미지는 확산 모델(diffusion model)을 활용해 노이즈를 제거하면서 이미지를 생성하는 방식을 따른다. 이러한 접근을 통해 트랜스퓨전은 텍스트와 이미지 모두에서 정보 손실 없이 고품질의 결과물을 생성할 수 있다​.

기존의 멀티모달 모델들은 보통 텍스트와 이미지를 별도의 모듈로 처리하거나, 이미지를 텍스트 토큰으로 변환하여 언어 모델을 확장하는 방식으로 동작한다. 이 과정에서 이미지의 연속적인 특성이 이산적인 형태로 변환되면서 정보 손실이 발생할 수 있다. 트랜스퓨전은 이러한 한계를 극복하기 위해 이미지 데이터를 연속적인 상태로 유지하면서 텍스트와 함께 학습한다. 이는 각 모달리티의 특성을 유지하면서도 상호 보완적으로 작동할 수 있는 멀티모달 학습을 가능하게 한다.

성능 비교: 트랜스퓨전의 확장성

트랜스퓨전은 다양한 크기의 모델로 실험을 진행하여, 기존의 멀티모달 모델과 비교했을 때 뛰어난 확장성을 보였다. 특히, Chameleon과 같은 기존의 모델과의 비교 실험에서 트랜스퓨전은 더 적은 연산 자원으로도 비슷하거나 더 나은 성능을 기록했다. 예를 들어, 텍스트-이미지 생성 실험에서 트랜스퓨전은 Chameleon보다 약 34배 적은 연산으로 동일한 수준의 FID(Frechet Inception Distance) 점수를 달성했다. 이는 트랜스퓨전이 이미지의 연속적 특성을 잘 유지하면서도 효율적으로 처리할 수 있음을 보여준다​.

또한, 텍스트 생성에서도 트랜스퓨전은 Chameleon과 비슷한 수준의 성능을 보였다. 텍스트 생성에서의 성능 차이는 주로 두 모델이 이미지 데이터를 처리하는 방식에서 비롯된다고 할 수 있다. 트랜스퓨전은 이미지 데이터를 이산화하지 않고 직접 처리함으로써 텍스트와 이미지의 상호작용을 최적화할 수 있으며, 이는 텍스트 성능의 저하 없이 통합적인 멀티모달 학습이 가능하게 한다.

아키텍처 개선: U-Net을 활용한 이미지 처리 성능 향상

트랜스퓨전의 성능을 더욱 향상시키기 위해 다양한 아키텍처 실험이 진행되었다. 기본적으로 트랜스퓨전은 각 이미지 패치를 선형 계층(linear layer)을 통해 처리하지만, U-Net 다운/업 블록을 추가했을 때 이미지 생성 성능이 크게 향상되는 것을 확인할 수 있었다. U-Net은 이미지 내 패치들 간의 관계를 더 잘 반영할 수 있도록 하는 쌍방향 주의(attention) 메커니즘을 제공하며, 이를 통해 모델이 이미지의 연속적인 특성을 효과적으로 학습할 수 있게 한다​.

실험 결과, U-Net 블록을 추가한 트랜스퓨전 모델은 더 적은 수의 이미지 패치로도 높은 성능을 유지할 수 있었다. 이는 트랜스퓨전이 이미지 데이터를 보다 효율적으로 압축하고 처리할 수 있음을 시사한다. 또한, 패치 크기를 최적화함으로써 연산 자원을 절약하면서도 성능을 유지할 수 있어, 실제 응용에서의 활용 가능성을 높인다.

이미지 편집: 멀티모달 모델의 확장 가능성

트랜스퓨전은 텍스트와 이미지 생성 외에도 이미지 편집 기능에서도 우수한 성능을 보였다. 소규모 이미지 편집 데이터셋으로 미세 조정된 트랜스퓨전 모델은 사용자의 편집 지침에 따라 이미지를 성공적으로 수정하는 능력을 보여주었다. 이는 트랜스퓨전이 멀티모달 모델로서의 잠재력을 확장할 수 있는 가능성을 시사한다. 특히, 이미지와 텍스트 간의 다양한 상호작용을 필요로 하는 복잡한 작업에서도 모델이 효과적으로 적응할 수 있음을 보여준다​.

예를 들어, 트랜스퓨전 모델은 사용자의 지시에 따라 이미지에서 특정 요소를 제거하거나 추가하고, 이미지 내 텍스트를 수정하는 등 다양한 편집 작업을 수행할 수 있다. 이는 기존의 이미지 생성 모델들이 제한된 기능을 제공하는 것과 달리, 트랜스퓨전이 멀티모달 AI의 새로운 가능성을 제시할 수 있음을 보여준다.

멀티모달 모델 더 확장할 것

트랜스퓨전은 텍스트와 이미지를 동시에 처리할 수 있는 단일 모델로, 기존의 멀티모달 학습 접근 방식을 혁신적으로 개선했다. 이를 통해 정보 손실 없이 텍스트와 이미지 모두에서 높은 성능을 달성할 수 있으며, 향후 멀티모달 AI 연구 및 응용에서 중요한 역할을 할 것으로 기대된다. 트랜스퓨전의 성능과 아키텍처 개선은 향후 다양한 데이터 유형을 하나의 모델에서 처리할 수 있는 멀티모달 모델의 가능성을 한층 더 확장할 것이다.

메타의 논문은 링크에서 확인할 수 있다.


본 기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




멀티모달 AI의 새로운 접근, 트랜스퓨전(Transfusion) – AI 매터스