엔비디아가 최근 고해상도 4K 이미지를 효율적으로 생성할 수 있는 텍스트-이미지 변환 AI 모델 ‘Sana’를 공개했다. 이 모델은 노트북 GPU에서도 원활히 작동하며, 빠른 속도로 고품질 이미지를 생성할 수 있는 점이 특징이다.

Sana는 이미지와 텍스트 간의 정합성을 유지하면서도 고해상도 이미지를 신속히 생성할 수 있도록 설계됐다. 이를 위해 딥 컴프레션 오토인코더(DC-AE)라는 혁신적인 압축 기술이 적용됐다. DC-AE는 기존의 8배 압축 방식을 넘어 32배 압축을 구현함으로써 잠재 토큰의 수를 크게 줄이고 효율성을 높였다.
또한 Sana는 선형 디퓨전 트랜스포머(Linear DiT)를 도입해 기존 어텐션 메커니즘을 선형 어텐션으로 대체했다. 이를 통해 연산량을 줄이면서도 고해상도 이미지 품질을 유지할 수 있었다. 여기에 디코더 기반 텍스트 인코더를 활용해 이미지와 텍스트 간의 정합성을 한층 강화했다. 특히, 현대적인 디코더 기반 소형 언어 모델과 인컨텍스트 러닝 방식을 결합해 복잡하고 세밀한 사용자 지시도 처리할 수 있다.
효율적인 학습과 샘플링도 Sana의 주요 강점이다. Flow-DPM-Solver 기술을 통해 샘플링 단계를 단축하고, 캡션 라벨링과 선택 과정을 최적화해 모델의 학습 효율과 성능을 동시에 끌어올렸다. 이러한 기술적 진보 덕분에 Sana-0.6B 모델은 대형 디퓨전 모델과 견줄 만한 성능을 발휘하면서도 더 적은 자원으로 고품질 이미지를 생성할 수 있다.
이처럼 다양한 기술적 요소가 결합된 Sana는 일반 소비자용 하드웨어에서도 4K 이미지를 원활히 생성할 수 있어 디지털 콘텐츠 제작과 예술 창작의 새로운 가능성을 열 것으로 기대된다.
다만, 이미지 생성 기술의 발전이 저작권 침해나 허위 정보 생성 등 윤리적 문제를 야기할 가능성도 있다. 이에 따라 이러한 문제를 방지하기 위한 적절한 규제와 윤리적 기준이 필요하다.
엔비디아는 Sana를 오픈 소스로 공개하며, 더 많은 개발자와 연구자가 이 기술을 활용하고 발전시킬 수 있도록 지원하고 있다. 이를 통해 고품질 이미지 생성 기술의 민주화가 이루어질 것으로 보인다. Sana의 출시는 AI 기반 이미지 생성 기술의 새로운 장을 열었으며, 향후 발전과 활용이 주목된다.
Sana의 오픈소스는 깃허브에서, Sana의 데모 페이지는 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기