STARFLOW: Scaling Latent Normalizing Flows for High-resolution Image Synthesis
정밀한 이미지 생성을 위한 ‘정규화 흐름’의 부활
애플(Apple)이 공개한 논문에서 선보인 STARFlow는 고해상도 이미지 생성을 위해 정규화 흐름(Normalizing Flow, 이하 NF)을 대규모로 확장한 최초의 사례다. 기존 생성형 AI에서 상대적으로 주목받지 못했던 NF 기반 모델이, 확률적 해석 가능성과 정확한 최대우도 추론(Maximum Likelihood Estimation)을 유지하면서도, 경쟁 모델인 확산(디퓨전) 및 자기회귀(Autoregressive) 모델에 견줄 만한 품질을 달성했다는 점에서 주목할 만하다.
STARFlow의 핵심은 자기회귀 변환 흐름(Transformer Autoregressive Flow, TARFlow)의 확장판으로, 사전 학습된 오토인코더(autoencoder)의 잠재(latent) 공간에서 학습이 이뤄진다. 이는 픽셀 단위에서 직접 학습하는 기존 방식보다 효율성과 표현력이 뛰어나며, 이미지 해상도와 품질 모두에서 높은 성능을 보였다. 특히 새로운 구조 설계, 노이즈 주입 기반 학습, 원칙 기반의 가이던스 알고리즘까지 포함해, NF 기반 모델도 실용적인 확장이 가능하다는 것을 실험적으로 입증했다.

파라미터 집중 배치로 디퓨전보다 빠른 추론 속도 확보
STARFlow는 전체 모델 용량을 하나의 깊은 Transformer 블록과 소수의 얕은 블록으로 분산하는 비대칭 구조를 채택했다. 이 설계는 단순하면서도 효율적으로 자기회귀 흐름의 학습 효율을 높였다. 특히 중요한 의미는 첫 번째 블록에 대부분의 파라미터를 집중하면서, 후속 블록은 국소적인 이미지 정제 역할에 집중하도록 설계된 것이다.
이 방식은 전통적인 동일한 깊이 분배 설계(TARFlow)의 한계를 극복하면서도 계산량은 최소화한다. 또한 텍스트 조건을 처리할 때에는 오직 깊은 블록에만 조건 정보를 입력함으로써, LLM 기반의 텍스트 인코더 없이도 텍스트-이미지 연동을 가능하게 만든다. 이는 LLM과의 통합에도 유리한 구조적 장점으로 평가된다.
잠재 공간에서의 학습과 디코더 미세 조정
기존 픽셀 기반 학습과 달리, STARFlow는 VAE 기반의 잠재 공간에서 학습이 이뤄진다. 예컨대 SD-1.4 VAE를 활용하면 256×256 이미지를 32×32로 압축해 학습할 수 있어 고해상도 이미지 생성을 위한 계산 부담을 줄일 수 있다. 특히 잠재 공간에 가우시안 노이즈를 추가하는 방식으로 안정적인 학습이 가능해졌고, 이를 위해 디코더를 노이즈가 포함된 잠재값에서도 자연스러운 이미지를 생성할 수 있도록 미세 조정(finetuning)했다.
실제로 디코더 미세 조정을 통해 이미지넷(ImageNet)-256 데이터셋에서 FID(Frechet Inception Distance) 점수를 2.96에서 2.40으로 개선했다. 이 방식은 기존의 스코어 기반 디노이징보다 효율성과 성능에서 모두 우위에 있었다.
새로운 수식 기반 가이던스로 고가이던스에서도 안정성 확보
텍스트 조건 이미지 생성에서 중요한 가이던스 기법도 기존보다 진일보했다. 기존 TARFlow는 단순 선형 보간 방식으로 평균과 분산을 보정했지만, STARFlow는 스코어 기반 해석을 통해 이 과정을 보다 수학적으로 정립했다. 특히 Gaussian 분포 간의 조합을 통해 안정적인 가이던스를 유지하면서도, 높은 가이던스 값에서도 이미지 품질이 무너지지 않는 특징을 보여준다.
제안된 방법은 기존 방식이 가이던스 값이 커질수록 급격히 성능이 악화되는 문제를 완화하며, 더 넓은 범위의 하이퍼파라미터 튜닝 가능성을 제공한다. 이를 통해 텍스트-이미지 정합도가 중요한 작업에서 보다 정밀한 생성이 가능하다.
경쟁 모델과의 성능 비교: FID 및 생성 효율성 측면에서 우수
STARFlow는 다양한 벤치마크에서 디퓨전 모델 및 AR 모델과 성능을 비교했다. ImageNet-256에서는 기존 TARFlow 대비 FID 점수가 5.56 → 2.40으로 개선됐으며, text-to-image 생성에서는 COCO 데이터셋 기준으로 FID 9.1을 기록해 DALL-E 2 (10.4), CogView2 (24.0), Make-A-Scene (11.8) 등을 능가했다.
성능뿐 아니라 속도 측면에서도 주목할 만한 성과를 보였다. 동일한 파라미터 수에서, STARFlow는 디퓨전 모델보다 최대 2배 이상 빠른 추론 속도를 기록했으며, 이는 ‘얕은 블록 무가이던스 처리’ 설계 덕분이다.
추가 학습 없이도 이미지 인페인팅·편집·인터랙티브 생성 지원
STARFlow는 단순 이미지 생성에 그치지 않고, 이미지 인페인팅(inpainting)과 편집(editing)까지도 지원한다. 예를 들어, 마스크된 영역을 잠재 공간 상에서 노이즈로 채우고, 학습된 NF 모델을 활용해 자연스럽게 보완하는 방식으로 추가 학습 없이도 고품질 인페인팅이 가능하다.
또한 ANYEDIT 데이터셋 기반 파인튜닝을 통해 인터랙티브 이미지 편집이 가능하며, 이는 동일 모델로 원본 이미지와 편집 결과를 순차적으로 생성할 수 있다는 점에서 LLM과 유사한 활용 가능성을 보여준다. 특히 모델의 가역성 덕분에 이미지 인코딩 및 디코딩이 한 번의 전파로 가능해, 실시간 생성이나 협업 기반 생성에도 적합한 구조를 갖추고 있다.
FAQ
Q. STARFlow는 기존 확산 모델 대비 어떤 점에서 우위에 있나요?
A. 추론 속도와 수치 해석 정확도에서 앞선다. 특히 학습 과정이 최대우도 기반이며, 디노이징 반복 없이 단일 샘플링으로 고해상도 이미지 생성이 가능하다.
Q. STARFlow는 텍스트-이미지 생성 외에 어떤 활용이 가능한가요?
A. 인페인팅과 인터랙티브 편집이 가능하다. 추가 학습 없이 조건부 생성, 이미지 편집, 순차적 생성 등 다양한 비전-언어 태스크에 활용될 수 있다.
Q. STARFlow의 현재 한계점은 무엇인가요?
A. VAE 인코더는 고정되어 있어 엔드 투 엔드 학습에는 제약이 있다. 또한 추론 속도는 아직 AR 모델 대비 상대적으로 느린 편이며, 디노이징 단계를 완전히 제거하는 데는 추가 연구가 필요하다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
이미지 출처: STARFLOW: Scaling Latent Normalizing Flows for High-resolution Image Synthesis
이 기사는 챗GPT와 클로드를 활용해 작성되었습니다.