Rich Human Feedback for Text-to-Image Generation
생성형 AI 이미지의 문제점을 정확히 짚어내다
최근 몇 년간 스테이블 디퓨전(Stable Diffusion)이나 이마젠(Imagen) 같은 텍스트-이미지 생성(Text-to-Image, T2I) AI 모델들이 급속도로 발전하며 고해상도 이미지 생성이 가능해졌다. 하지만 이러한 발전에도 불구하고 여전히 많은 생성 이미지들이 부자연스럽거나 텍스트 설명과 일치하지 않는 등의 문제를 보이고 있다. 예를 들어, 인간의 손에 6개 이상의 손가락이 있거나, 동물의 신체 비율이 어색하거나, 물체가 공중에 떠 있는 등의 비현실적인 요소들이 자주 발견된다.
구글 리서치 팀은 이러한 문제를 해결하기 위해 생성된 이미지의 품질을 더욱 정교하게 평가할 수 있는 ‘리치 휴먼 피드백(Rich Human Feedback, RHF)’ 데이터셋과 이를 학습한 AI 모델을 개발했다. 이 연구는 기존의 단순한 점수 기반 평가 방식에서 벗어나, 이미지의 구체적인 문제점을 파악하고 개선할 수 있는 새로운 방법론을 제시했다는 점에서 큰 의의가 있다.
RHF 데이터셋은 18,000개의 AI 생성 이미지에 대해 전문가들이 평가한 상세한 피드백 정보를 담고 있다. 이 데이터셋에는 이미지의 부자연스러운 부분이나 텍스트와 일치하지 않는 영역을 표시한 히트맵, 텍스트에서 이미지와 맞지 않는 키워드 목록, 그리고 이미지의 자연스러움, 텍스트 일치도, 심미성, 전반적 품질 등 4가지 항목에 대한 점수가 포함되어 있다. 이러한 상세한 피드백은 단순히 이미지의 전반적인 품질을 평가하는 것을 넘어, 구체적으로 어떤 부분에서 문제가 발생하는지를 파악할 수 있게 해준다. 이는 향후 AI 모델의 성능을 개선하는 데 매우 중요한 정보로 활용될 수 있다.
AI가 인간의 눈을 대신하다
연구팀은 이 RHF 데이터셋을 학습한 ‘리치 오토매틱 휴먼 피드백(Rich Automatic Human Feedback, RAHF)’ 모델을 개발했다. 이 모델은 새로운 AI 생성 이미지에 대해서도 인간 전문가와 유사한 수준의 정교한 평가를 자동으로 수행할 수 있다.
RAHF 모델의 구조는 비전 트랜스포머(ViT)와 T5X 모델을 기반으로 하며, 이미지와 텍스트 정보를 함께 처리할 수 있는 멀티모달 구조를 가지고 있다. 이 모델은 입력된 이미지와 텍스트를 분석하여 앞서 언급한 히트맵, 키워드, 점수 등의 다양한 피드백을 생성한다.
RAHF 모델의 성능을 검증하기 위해 연구팀은 테스트 데이터셋에서 모델의 예측과 인간 전문가의 평가를 비교했다. 그 결과 RAHF 모델은 4가지 평가 점수(자연스러움, 텍스트 일치도, 심미성, 전반적 품질)에서 모두 기존 방식들보다 인간의 평가와 더 높은 상관관계를 보였다. 특히 이미지의 부자연스러운 부분을 찾아내는 데 있어서는 인간 전문가의 평가와 매우 유사한 결과를 보여주었다.
예를 들어, 자연스러움 점수 예측에서 RAHF 모델은 0.693의 피어슨 상관계수를 보여, 기존의 ResNet-50 기반 모델(0.495)이나 CLIP 모델(0.390)보다 훨씬 높은 성능을 보였다. 또한 이미지의 부자연스러운 부분을 찾아내는 히트맵 생성에서도 RAHF 모델은 인간 평가자들과 매우 유사한 결과를 보여주었다.
AI 이미지 생성 모델의 성능 향상에 기여
RAHF 모델은 단순히 이미지를 평가하는 데 그치지 않고, AI 이미지 생성 모델의 성능을 향상시키는 데도 활용될 수 있다. 연구팀은 이를 증명하기 위해 두 가지 실험을 진행했다.
첫째, RAHF 모델의 평가 결과를 바탕으로 고품질 이미지 데이터를 선별해 이미지 생성 AI를 재학습시켰다. 구체적으로, 연구팀은 Muse라는 이미지 생성 모델에 대해 이 방법을 적용했다. 먼저 12,564개의 프롬프트에 대해 각각 8장의 이미지를 생성한 후, RAHF 모델을 사용해 각 이미지의 품질을 평가했다. 그 중 가장 높은 점수를 받은 이미지들을 선별하여 이를 바탕으로 Muse 모델을 미세조정(fine-tuning)했다.
그 결과, 미세조정된 Muse 모델은 기존 모델보다 더 자연스럽고 텍스트와 잘 일치하는 이미지를 생성할 수 있게 되었다. 연구팀은 100개의 새로운 프롬프트를 사용해 원본 Muse 모델과 미세조정된 모델의 결과물을 비교했는데, 6명의 인간 평가자들은 미세조정된 모델의 결과물이 더 우수하다고 평가했다. 구체적으로, 51.83%의 경우에서 미세조정된 모델의 결과물이 더 나은 것으로 평가되었고, 31.33%는 비슷한 수준, 16.84%만이 원본 모델의 결과물이 더 나은 것으로 평가되었다.
둘째, RAHF 모델이 찾아낸 이미지의 부자연스러운 부분에 대해서만 선별적으로 이미지를 재생성하는 방식으로도 전체적인 이미지 품질을 크게 개선할 수 있었다. 이 방법은 RAHF 모델을 사용해 생성된 이미지의 부자연스러운 부분에 대한 히트맵을 생성하고, 이 히트맵을 기반으로 문제가 있는 영역에 대한 마스크를 생성한다. 그 다음 Muse 모델의 인페인팅(inpainting) 기능을 사용해 마스크된 영역만 재생성하고, 여러 번의 재생성 결과 중 RAHF 모델이 가장 높은 점수를 준 이미지를 최종 결과물로 선택한다.
이 방법을 통해 전체 이미지를 다시 생성하지 않고도 문제가 있는 부분만을 효과적으로 개선할 수 있었다. 특히 이 방법은 원본 이미지의 전반적인 구도와 스타일은 유지하면서도 세부적인 오류를 교정할 수 있다는 점에서 매우 효과적이다.
이러한 결과들은 RAHF 모델이 단순히 이미지를 평가하는 데 그치지 않고 이미지 생성 AI의 성능 향상에도 직접적으로 기여할 수 있음을 보여준다. 특히 RAHF 모델이 Stable Diffusion 모델의 결과물을 바탕으로 학습되었음에도 불구하고, Muse와 같은 다른 아키텍처의 모델에도 효과적으로 적용될 수 있다는 점은 이 접근 방식의 일반화 가능성을 보여준다.
앞으로의 과제
이번 연구 결과는 AI 생성 이미지의 품질을 평가하고 개선하는 데 있어 중요한 발전을 이뤘지만, 여전히 해결해야 할 과제들이 남아있다.
텍스트와 이미지의 불일치를 판단하는 부분에서는 아직 개선의 여지가 있다. 연구 결과에 따르면 RAHF 모델의 텍스트-이미지 불일치 히트맵 생성 성능은 부자연스러움 히트맵에 비해 상대적으로 낮았다. 이는 텍스트-이미지 일치도 판단이 더 복잡하고 주관적인 작업이기 때문으로 보인다. 향후 연구에서는 이 부분에 대한 개선이 필요할 것으로 보인다.
현재의 데이터셋이 특정 이미지 생성 모델(주로 Stable Diffusion 계열)에 편중되어 있어, 앞으로 더 다양한 모델들의 결과물을 포함한 데이터셋 구축이 필요할 것으로 보인다. 이를 통해 RAHF 모델의 일반화 성능을 더욱 높일 수 있을 것이다.
인간 평가자들의 주관성과 일관성 문제도 계속해서 개선해 나가야 할 부분이다. 연구팀은 각 이미지에 대해 3명의 평가자가 평가를 진행하고 그 결과를 종합하는 방식을 사용했지만, 여전히 평가자 간의 불일치가 존재할 수 있다. 향후 연구에서는 평가 기준을 더욱 명확히 하고, 평가자 간의 일치도를 높이는 방안을 모색해야 할 것이다.
마지막으로, RAHF 모델을 활용한 이미지 생성 모델 개선 방법론에 대한 더 깊이 있는 연구가 필요하다. 현재의 연구에서는 간단한 미세조정과 인페인팅 방식을 사용했지만, 향후에는 강화학습 등 더 복잡한 방법론을 통해 RAHF 모델의 피드백을 더욱 효과적으로 활용하는 방안을 탐구할 수 있을 것이다.
그럼에도 불구하고 이번 연구는 AI 생성 이미지의 품질을 더욱 정교하게 평가하고 개선할 수 있는 길을 제시했다는 점에서 큰 의의가 있다. 앞으로 이를 바탕으로 더욱 자연스럽고 사용자의 의도에 잘 부합하는 AI 생성 이미지들을 만나볼 수 있을 것으로 기대된다. 또한 이러한 접근 방식은 이미지 생성 분야를 넘어 다른 AI 생성 콘텐츠(예: 텍스트, 음성, 비디오 등)의 품질 평가와 개선에도 적용될 수 있는 가능성을 보여주고 있다.
기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.
본 기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기