평범한 이미지 그리는 AI 그만… KAIST 개발 ‘진짜’ 창의적 이미지 생성 모델

Enhancing Creative Generation on Stable Diffusion-based Models
이미지 출처: Enhancing Creative Generation on Stable Diffusion-based Models

Enhancing Creative Generation on Stable Diffusion-based Models


KAIST와 네이버 AI랩의 연구진이 Stable Diffusion 기반 모델의 창의적 이미지 생성 능력을 획기적으로 향상시키는 새로운 기법을 개발했다. 해당 연구 논문에 따르면, ‘C3(Creative Concept Catalyst)’라고 명명된 이 기법은 기존 모델이 “창의적인”이라는 프롬프트를 입력해도 만족스러운 결과를 생성하지 못하는 근본적 한계를 해결한다. 연구진은 Stable Diffusion SDXL, Turbo, Lightning 등 주요 모델에서 “창의적인 의자”, “창의적인 건물” 같은 프롬프트가 실제로는 평범한 이미지만 생성한다는 문제점을 확인했다. C3는 추가적인 학습 없이도 모델 내부의 특성 맵을 선택적으로 증폭하여 이러한 창의성 부족 문제를 해결한다.

FFT 기술로 노이즈 제거하며 창의성만 골라 증폭

Enhancing Creative Generation on Stable Diffusion-based Models

C3 기법의 핵심은 U-Net 구조의 초기 블록들(down block과 middle block)에서 저주파 성분만을 선택적으로 증폭하는 것이다. 연구진은 모든 주파수 대역을 균등하게 증폭할 경우 노이즈와 모자이크 패턴이 발생한다는 문제를 발견했다. 이를 해결하기 위해 FFT(Fast Fourier Transform)를 활용해 특성 맵을 주파수 도메인으로 변환한 후, 저주파 마스크를 적용하여 고주파 성분은 보존하면서 저주파 성분만 증폭한다.

이 방식을 통해 이미지의 주요 내용과 객체는 창의적으로 변화시키면서도 세부적인 노이즈는 최소화할 수 있다. 연구 결과 첫 번째와 두 번째 블록 증폭은 주로 색상과 구조 변화를, 세 번째 down block과 middle block은 질감과 형태 변화를 유도하는 것으로 나타났다.

미적 점수와 CLIP 점수로 자동 조절하는 창의성 균형 시스템

C3는 창의성의 두 가지 핵심 요소인 새로움(novelty)과 사용성(usability)의 균형을 맞추기 위한 자동 매개변수 선택 시스템을 도입했다. 사용성 점수는 미적 점수와 CLIP 점수의 합으로 정의되며, 이는 생성된 이미지가 대상 객체로 인식될 수 있는지와 이미지 품질이 만족스러운지를 평가한다.

연구진은 증폭 계수가 너무 작으면 변화가 없고, 너무 크면 이미지가 인식 불가능한 노이즈로 변한다는 문제를 해결하기 위해 사용성 제약 조건 하에서 새로움을 최대화하는 최적의 증폭 계수를 자동으로 찾는 알고리즘을 개발했다. 이 시스템은 서로 다른 블록의 민감도 차이를 고려하여 블록별로 다른 증폭 계수를 적용한다.

Lightning 모델 FID 점수 163까지 상승, Turbo 리콜 0.27→0.68 개선

연구진은 5개 객체(의자, 건물, 의류, 자동차, 테디베어)에 대해 각각 100개의 이미지를 생성하여 정량적 평가를 실시했다. 새로움 지표인 FID와 Precision에서 C3는 모든 모델에서 원본 대비 향상된 결과를 보였다. 특히 FID 점수는 Lightning 1-step에서 123.95에서 163.01로, Turbo에서 146.43에서 164.07로 상승했다. 다양성 측면에서도 LPIPS와 Vendi 점수가 전반적으로 개선되었으며, 특히 모드 붕괴 문제를 겪던 Turbo 모델에서 Recall 점수가 0.27에서 0.68로 크게 향상되었다. 사용성 지표인 CLIP과 BLIP 점수는 약간 감소했지만, 경쟁 모델인 ConceptLab 대비 훨씬 높은 사용성을 유지했다.

31명 참가자 평가에서 새로움 점수 2.65→4.12로 55% 향상

31명의 참가자를 대상으로 한 사용자 연구에서 C3의 효과가 명확히 입증되었다. Lightning 1-step 모델의 경우 새로움 점수가 2.65에서 4.12로 크게 향상되었으며, Turbo 모델에서도 3.08에서 3.79로 개선되었다. 사용성 점수는 소폭 감소했지만(Lightning 1-step: 4.62→4.19, Turbo: 4.49→4.14), 새로움 향상 폭이 사용성 감소보다 훨씬 컸다. 특히 ConceptLab(새로움 3.65, 사용성 2.97)과 비교할 때 C3는 더 높은 새로움과 훨씬 우수한 사용성을 동시에 달성했다. GPT-4o를 활용한 창의성 유형 분석에서는 의자는 주로 형태, 의류는 질감, 테디베어는 색상 측면에서 창의성이 향상되는 것으로 나타났다.

FAQ

Q: C3 기법은 기존 Stable Diffusion 모델에 어떻게 적용하나요?

A: C3는 추가 학습이 필요 없는 플러그인 방식으로 작동합니다. 기존 Stable Diffusion 모델의 U-Net 구조에서 down block과 middle block의 특성 맵을 FFT로 주파수 도메인으로 변환한 후, 저주파 성분만 선택적으로 증폭하여 다시 역변환합니다. 사용자는 단순히 “창의적인 [객체]” 프롬프트만 입력하면 됩니다.

Q: C3로 생성된 이미지가 기존 이미지와 어떻게 다른가요?

A: C3는 객체의 기본 의미는 유지하면서 형태, 색상, 질감 측면에서 창의적 변화를 만들어냅니다. 예를 들어 “창의적인 의자”의 경우 여전히 의자로 인식되지만 독특한 디자인, 생생한 색상, 혁신적인 구조를 가진 이미지가 생성됩니다. 기존 모델이 평범한 의자만 생성하던 것과 달리 예술적이고 독창적인 의자 이미지를 만들어냅니다.

Q: C3 기법의 한계점은 무엇인가요?

A: C3는 기존 모델의 생성 능력에 의존하므로, 모델 자체가 특정 객체에 대한 창의적 개념이 제한적이면 효과가 제한될 수 있습니다. 또한 때로는 기능성이 떨어지는 이미지가 생성되거나(예: 작동하기 어려운 자전거), 모델의 편향으로 인해 일반적인 패턴에서 크게 벗어나지 못하는 경우도 있습니다.

해당 기사에 인용된 논문 원문은 arxiv에서 확인 가능하다.

이미지 출처: Enhancing Creative Generation on Stable Diffusion-based Models

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




평범한 이미지 그리는 AI 그만… KAIST 개발 ‘진짜’ 창의적 이미지 생성 모델 – AI 매터스 l AI Matters