구글 “AI 이미지 안전 검사 완전히 틀렸다”… 타인과 나에게 다른 잣대 들이대

구글이 발표한 연구 결과가 충격적이다. 현재 AI가 만든 이미지가 안전한지 판단하는 방식에 큰 허점이 있다는 것이다. 구글 연구진은 637명의 다양한 사람들이 AI 이미지를 보고 남긴 5372개의 의견을 분석했다. 그 결과 지금까지 사용해 온 안전성 검사 방법이 사람들이 실제로 중요하게 생각하는 부분들을 제대로 파악하지 못하고 있다는 사실을 발견했다.

해당 연구 논문에서 놀라운 점은 사람들이 AI 이미지를 볼 때 “무서워”, “불안해”, “징그러워” 같은 솔직한 감정을 표현한다는 것이다. 이런 감정들은 기존의 안전성 규칙과는 전혀 다른 종류의 위험을 알려주는 신호였다. 연구에서 가장 많이 나온 감정은 “무서움”이었는데 233번이나 언급됐다. 흥미롭게도 폭력적인 내용뿐만 아니라 특별히 해롭지 않다고 여겨지는 이미지에서도 무서움을 느끼는 경우가 많았다.

나보다 ‘다른 사람’에게 더 위험하다고 생각하는 사람들

연구에서 가장 흥미로운 발견 중 하나는 사람들이 자신보다 다른 사람에게 더 큰 위험이 될 것이라고 생각한다는 점이다. 전체 참가자의 78.96%가 ‘AI 이미지가 다른 사람들에게 미칠 해로움’을 ‘나 자신에게 미칠 해로움’보다 더 크게 평가했다.

이런 차이는 사람들의 배경에 따라 다르게 나타났다. 여성들은 남성들보다 자신과 다른 사람에 대한 위험도 차이를 작게 봤고, 백인들은 다른 인종보다 그 차이를 크게 봤다. 특이한 점은 자신과 같은 성별이나 인종이 이미지에 나와 있어도 이런 패턴이 똑같이 나타났다는 것이다. 예를 들어 여성들이 여성이 나오지 않는 이미지를 평가할 때도 동일한 경향을 보였다. 이는 개인의 사회적 경험이 특정 상황에 대한 민감함뿐만 아니라 전반적인 위험 인식에도 영향을 준다는 뜻이다.

이미지 품질이 안전하다고 느끼는 정도에 영향을 준다

연구에서 밝혀진 또 다른 중요한 사실은 이미지의 품질이 안전함을 느끼는 정도에 큰 영향을 준다는 점이다. 사람들은 얼굴이 이상하게 찌그러지거나 그림이 깨져 보이는 것 같은 기술적 문제를 단순한 실수가 아니라 “불안하거나” “위험한” 요소로 받아들였다. 이는 연구진이 이미지 품질에 대한 별도 지침을 주지 않았는데도 나타난 현상이다.

한 참가자는 “이 이미지는 전혀 해롭지 않아요. 그냥 얼굴이 좀 이상하게 나왔을 뿐이에요”라고 말했지만, 다른 참가자는 비슷한 이상한 얼굴을 보고 “고통받는 모습 같다”고 해석했다. 이처럼 같은 기술적 문제라도 사람마다 다르게 받아들이며, 이것이 안전성 판단에 영향을 미친다는 것을 보여준다.

사람들의 윤리 판단이 AI 안전성 평가에 숨어있다

Just a strange pic Evaluating safety in GenAI Image safety annotation tasks from diverse annotators perspectives

연구진은 사람들이 AI 이미지를 볼 때 어떤 윤리적 생각을 하는지도 분석했다. 놀랍게도 AI에게 준 명령어 중 7.0%만 윤리적 내용을 담고 있었지만, 사람들이 남긴 의견의 24.4%는 윤리적 판단을 포함하고 있었다. 특히 ‘다른 사람을 돌보려는 마음’, ‘평등에 대한 생각’, ‘순결함에 대한 가치관’ 같은 도덕적 감정들이 이미지를 위험하다고 느끼는 정도와 관련이 있었다. 윤리적 내용이 담긴 명령어로 만든 이미지에 대해서는 사람들이 도덕적 판단이 담긴 의견을 남길 가능성이 더 높았다(30.2% 대 24.7%).

이는 명령어 자체에 특별한 윤리적 표현이 없어도, 그 의도가 민감한 이미지를 만들어내면 사람들의 도덕적 판단을 자극한다는 뜻이다. 마치 겉으로는 평범해 보이는 질문이지만 속으로는 문제가 있는 답을 유도하는 것과 같다.

AI 이미지 안전 검사, 이제 “다양한 문화권 사람들의 해석 포함시켜야 해”

연구진은 현재의 AI 이미지 안전 검사 방식이 크게 바뀌어야 한다고 강조했다. 지금처럼 딱딱한 규칙만으로는 부족하고, 사람들의 주관적인 느낌도 함께 고려해야 한다는 것이다. 가장 중요한 제안은 안전성과 이미지 품질을 따로 보지 말고 함께 평가하자는 것이다. 또한 다양한 문화권 사람들의 해석도 포함시켜야 한다고 했다. 특히 사람들이 “나 자신”과 “다른 사람들”에 대한 위험을 다르게 느끼는 점을 인정하고, 이를 검사 과정에 명확히 반영해야 한다고 제안했다.

연구진은 “감정적 반응이나 상황에 따른 민감함 같은 주관적인 부분들을 AI 안전성 평가에 분명하게 포함시켜야 한다”고 말했다. 결국 AI가 만든 이미지가 정말 안전한지 판단하려면, 사람들이 실제로 어떻게 느끼는지를 더 세심하게 살펴봐야 한다는 뜻이다.

FAQ

Q: AI 이미지를 볼 때 느끼는 감정이 왜 중요한가요?

A: 사람들이 “무서워”, “불안해”, “징그러워” 같은 감정을 표현하는 것은 지금까지 사용하던 안전 검사 방법이 놓치고 있는 위험한 부분들을 알려주는 신호입니다. 이런 감정들이 실제로 이미지가 안전한지 위험한지 판단하는 데 직접적인 영향을 미치지만, 현재 검사 방식에서는 이를 제대로 파악하지 못하고 있습니다.

Q: 왜 사람들은 자신보다 다른 사람에게 더 위험할 것이라고 생각하나요?

A: 연구 결과 대부분의 사람들이 AI 이미지가 자신보다 다른 사람들에게 더 해로울 것이라고 생각합니다. 이는 자신의 위험 감수 능력에 대해서는 확신하지만, 이름 모르는 다른 사람들이 얼마나 민감할지는 불확실하기 때문입니다. 또한 다른 사람들이 더 취약할 수 있다는 배려심도 작용하는 것으로 보입니다.

Q: 이미지 품질이 안전하다고 느끼는 정도에 어떤 영향을 미치나요?

A: 사람들은 이미지가 흐릿하거나 얼굴이 이상하게 나온 것 같은 기술적 문제를 단순한 실수가 아니라 위험한 신호로 받아들이는 경향이 있습니다. 같은 기술적 문제라도 사람마다 “별거 아니야”에서 “뭔가 이상해”까지 다르게 해석하며, 이것이 전체적인 안전성 판단에 영향을 줍니다. 현재는 안전성과 품질을 따로 평가하는데, 실제로는 둘이 연결되어 있다는 뜻입니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문 명: “Just a strange pic”: Evaluating ‘safety’ in GenAI Image safety annotation tasks from diverse annotators’ perspectives

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.