텍스트-이미지 생성 AI가 대중화되면서 이들이 이미지를 어떻게 처리하고 이해하는지에 대한 의문이 커지고 있다. 호주 RMIT 대학교 연구진은 2024년 퓰리처상 수상작을 대상으로 챗GPT-4o가 저널리즘 이미지를 어떻게 묘사하고 재현하는지 분석했다. 연구 결과, AI는 원본 이미지를 극적으로 과장하는 경향을 보였다. 차 한 대를 여섯 대로, 시신 가방 네 개를 마흔 개 이상으로 늘리는 등 정확성과 진실성이 핵심인 저널리즘 분야에서 AI 이미지 생성 기술의 심각한 한계가 드러났다.
27개 퓰리처 수상작으로 본 AI의 ‘과장’ 패턴
해당 논문에 따르면, 연구진은 2024년 퓰리처상의 ‘속보 사진’과 ‘일러스트레이션 보도 및 논평’ 부문 수상작 27점을 분석했다. 속보 사진 부문은 로이터 통신 직원들이 수상했으며, 2023년 10월 7일 하마스의 이스라엘 공격과 이스라엘의 가자 공격 초기 몇 주를 기록한 15점의 사진이 포함됐다. 일러스트레이션 부문은 브루클린 공공도서관의 교도소 서비스 담당자이자 전문 일러스트레이터인 메다르 데 라 크루즈(Medar de la Cruz)가 수상했으며, 리커스 아일랜드 교도소를 배경으로 한 12점의 흑백 잉크 드로잉이었다.
각 이미지를 챗GPT-4o에 업로드해 묘사를 요청한 결과, AI는 일러스트레이션을 평균 168단어로, 카메라로 촬영한 사진을 평균 153단어로 묘사했다. 전체 평균은 160단어였다. 이후 이 묘사를 동일한 AI 도구에 다시 입력해 “다음 묘사를 바탕으로 이미지를 생성하라”고 요청했다. 생성된 이미지와 원본 이미지를 나란히 배치해 비교 분석한 결과, AI가 원본을 극적으로 과장하는 패턴이 명확히 드러났다.
첫 번째 이미지에서 AI가 생성한 묘사는 차 한 대만 언급했다. 하지만 묘사를 바탕으로 AI가 시각화한 이미지에는 네 대 이상의 차량 행렬이 있고 도로 반대편으로 가는 두 대의 차량이 더 있었으며, 반대 방향으로 가고 있었다. 총을 든 탑승자들이 완비된 이러한 차들에 의해 형성된 반복 패턴은 원본 이미지에 비해 AI 버전에서 훨씬 더 인상적이었다. 또 다른 사례로, 마지막 뉴스 사진 원본 이미지에는 네 개의 시신 가방만 보였지만, 해당 AI 버전에는 끝없이 이어지는 듯한 줄에 마흔 개 이상의 시신 가방이 보였다.
차분한 원본을 화려하고 극적으로 변형하는 AI
AI의 과장은 숫자만이 아니었다. 색상과 대비에서도 원본과 극명한 차이를 보였다. 뉴스 사진의 경우 가장 눈에 띄는 차이는 색상 처리 방식이었다. AI가 묘사에서 색상을 거의 언급하지 않았거나, 언급할 때도 상세한 설명이 없었지만, AI가 생성한 이미지는 통신사 원본 이미지보다 훨씬 더 생생하고 화려했다.
원본 이미지는 전반적으로 대비가 낮았고, 대체로 차분한 색상 팔레트를 보여줬으며, 전반적으로 낮은 다이내믹 레인지를 가졌다. 반면 AI 이미지는 색상으로 넘쳐났다. 예를 들어 세 번째 이미지의 피는 선명한 빨간색이었지만, 원본 이미지에서는 훨씬 더 어둡고 거의 검은색으로 보였다. 네 번째 이미지의 애도자들은 원본에서는 그늘에 있지만 AI 버전에서는 직사광선 아래 있는 것으로 표현됐다. 여섯 번째부터 열네 번째 이미지의 AI 버전은 각각 원본 이미지보다 훨씬 더 높은 대비, 다이내믹 레인지, 극적인 조명을 보여줬다.
AI는 또한 명시하지 않은 고정관념을 활용했다. 예를 들어 한 이미지에서 뉴스 사진 원본은 단 한 개의 키파(유대교 모자)만 보여주지만, AI 버전은 두 개의 키파와 챙이 넓은 모자를 쓴 세 번째 남성을 보여줬다. 모자를 쓴 남성 중 두 명은 긴 흰 수염도 가지고 있었지만, 원본 이미지의 어떤 사람도 그렇지 않았다.
표현 차원에 집중하고 기술적·미적 요소는 무시
AI가 이미지를 과장하고 왜곡하는 이유를 이해하려면 AI가 이미지를 어떻게 처리하는지 살펴봐야 한다. 분석 결과 AI는 시각적 스타일의 세 가지 차원 중 ‘표현 차원’에만 집중했다. 표현 차원은 누가 또는 무엇이 묘사됐는지, 어떤 활동이 일어나고 있는지를 다룬다. 반면 미적 차원과 기술적 차원은 대부분 무시됐다.
기술적 차원의 경우, AI는 모든 원본 이미지의 방향성과 화면 비율을 완전히 무시했다. 원본 이미지의 약 59.2퍼센트는 가로 방향에 2대3 비율이었고, 나머지 40.8퍼센트는 세로 방향에 5대7에 가까운 비율이었다. 하지만 AI가 생성한 묘사에는 방향성이 전혀 언급되지 않았고, 결과적으로 재생성된 이미지는 모두 텍스트-이미지 생성기에서 흔한 기본값인 1대1 정사각형 비율로 출력됐다.
미적 차원도 크게 다르지 않았다. 조명이나 시간대는 27개 이미지 묘사 중 단 네 번만 언급됐다. 색상과 관련해서는 일러스트레이션이 일관되게 흑백으로 묘사됐지만, 컬러 사진의 경우 색상이 거의 언급되지 않았다. 실제로 색상에 대한 언급은 10번만 이뤄졌다. 색상 언급은 또한 압도적으로 국지적이었다(예: 프레임 내 사물 지칭). 전체 색온도나 상대적 채도 또는 대비 수준을 명시하는 등 전역적인 방식은 거의 없었다.
시청자의 수직 또는 수평 각도나 장면이 시청자에게 평행한지 비스듬한지 같은 기호학적 자원은 AI 묘사에서 결코 명시되지 않았다. 마찬가지로 초점 거리와 시야각, 즉 피사체와 시청자의 시점이 얼마나 가깝거나 먼지는 묘사에서 단 두 번만 명시됐다. 질감도 거의 묘사되지 않았다.
문화적 맥락도 놓치고 사진작가의 의도도 무시
AI의 한계는 과장과 왜곡에만 그치지 않았다. 표현 차원에서도 AI 도구는 묘사된 대상을 대체로 일반적이고 문자 그대로만 설명했다. 성별은 약 절반 정도만 명시됐고, 인종적 배경이나 피부색은 완전히 무시됐다. 나이도 어린이나 노인처럼 극단적인 경우를 제외하고는 무시됐다.
문화가 명시적으로 언급된 것은 단 세 가지 경우뿐이었다. 두 번은 머리에 쓴 것과 관련해서였는데, 한 여성의 히잡과 한 남성의 키파였고, 한 번은 깃발과 관련해서였다. 하지만 대피소 사진의 건물에 있는 히브리어 글씨나 시신 가방에 머리를 기댄 남성 사진의 아랍어 글씨 같은 국가적·문화적 맥락의 다른 징후들은 AI가 생성한 묘사에서 무시됐다.
더 심각한 것은 AI가 사진작가의 섬세한 기술적 선택을 무시한다는 점이다. 원본 뉴스 사진 중 하나는 중앙의 부상당한 여성 옆에 있는 인물들에 모션 블러를 얻기 위해 느린 셔터 속도를 선택한 사진이다. 이러한 신중한 카메라 설정과 타이밍 선택은 ‘그녀의 세상이 멈췄다’는 시각적 은유를 전달하고, 모션 블러 처리된 옆의 인물들은 덜 중요하게 보이게 하면서 이 중심 인물에 추가 주의를 기울이도록 한다. AI 버전은 이 속성을 완전히 무시하고, 결과적으로 그녀 주변의 인물들도 모두 그녀처럼 얼어붙어 있다. 시각적 은유가 사라지고 그녀를 강조하려는 사진작가의 선택이 무시된 것이다.
‘극적 효과’ 추구하는 AI, 뉴스 보도용 사진으로는 아예 못 쓰나?
이번 연구가 밝힌 AI의 ‘과장’ 경향은 저널리즘의 근본 원칙과 정면으로 충돌한다. 저널리즘은 정확성, 공정성, 철저함을 추구한다. 특히 시각 저널리즘은 ‘객관적 현실에 대한 시각적 추구, 인간이 만들 수 있는 생활 사건의 가장 정확한 기록’으로 정의돼 왔다. 하지만 AI는 정반대 방향으로 작동한다.
때문에 현재의 AI 이미지 생성 기술은 저널리즘에 적용하기에는 근본적 한계가 있다. 실제 사건을 기록하는 뉴스 사진으로는 사용해서는 안 되며, 접근 불가능한 상황의 설명용 일러스트나 개념 시각화로 엄격히 제한해야 한다. 사용할 경우 반드시 ‘AI 생성’ 표기와 함께 전문 사진기자의 철저한 검증을 거쳐야 책임 있고 윤리적인 활용이 가능하다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. AI는 왜 사물의 개수를 늘리나요?
A: 연구에 따르면 AI는 극적인 효과를 위해 원본 이미지의 구도 특징을 시각적으로 과장하는 경향이 있습니다. 차 한 대를 여섯 대로, 시신 가방 네 개를 마흔 개 이상으로 늘리는 것은 반복 패턴을 만들어 시각적으로 더 인상적이게 하려는 것으로 보입니다. 이는 AI가 인간의 감정적 반응을 극대화하도록 훈련됐기 때문일 가능성이 높습니다.
Q2. AI가 원본보다 색상을 화려하게 만드는 이유는 무엇인가요?
A: AI 모델의 훈련 데이터에 높은 대비와 생생한 색상의 이미지가 많이 포함됐기 때문입니다. 원본 뉴스 사진은 낮은 대비와 차분한 색상을 가졌지만, AI는 묘사에서 색상 정보를 거의 제공하지 않았고, 결과적으로 기본 설정인 높은 채도와 대비로 이미지를 생성했습니다. 이는 스톡 사진의 ‘색상 강화’ 경향과도 관련이 있습니다.
Q3. 뉴스 매체에서 AI 생성 이미지를 사용하면 안 되나요?
A: 실제 사건을 기록하는 뉴스 사진으로는 절대 사용해서는 안 됩니다. AI는 사실을 과장하고 왜곡하기 때문입니다. 다만 접근 불가능한 상황의 설명용 일러스트나 개념적 시각화로는 제한적으로 사용할 수 있습니다. 이 경우에도 반드시 ‘AI 생성’임을 명시하고 전문 저널리스트의 검증을 거쳐야 합니다.
해당 기사에 인용된 논문 원문은 sage journals에서 확인 가능하다.
논문명: Computer-mediated representations: a qualitative examination of algorithmic vision and visual style
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.