MORALISE: A Structured Benchmark for Moral Alignment in Visual Language Models
2,481개 실제 상황으로 테스트한 13가지 도덕 영역, AI의 숨겨진 편향 드러나
일리노이 대학교 어바나-샴페인과 아마존(Amazon), 피델리티 인베스트먼츠(Fidelity Investments) 연구진이 공동 개발한 모럴라이즈(MORALISE) 벤치마크가 현재 최첨단 비전-언어 모델(VLM)들의 도덕적 판단 능력에 상당한 문제가 있음을 밝혀냈다. 이 연구는 터리엘의 도메인 이론(Turiel’s Domain Theory)에 기반해 개인적, 대인 관계적, 사회적 도덕 영역을 포괄하는 13개 도덕 주제로 구성된 체계적인 분류 체계를 제시했다. 연구진은 2,481개의 전문가 검증 실제 이미지-텍스트 쌍을 수집해 각 샘플에 도덕적 위반이 이미지에서 발생하는지 텍스트에서 발생하는지를 구분하는 모달리티 주석과 위반된 특정 도덕 주제를 식별하는 주제 주석을 부여했다.
기존의 도덕성 평가 연구들이 대부분 텍스트 기반 대화형 언어 모델(LLM)에만 집중했던 반면, 이번 연구는 이미지와 텍스트를 동시에 처리하는 비전-언어 모델의 도덕적 추론 능력을 종합적으로 평가한 최초의 대규모 연구다. 특히 기존 벤치마크들이 AI가 생성한 합성 이미지에 의존했던 것과 달리, 모럴라이즈는 핀터레스트(Pinterest), 레딧(Reddit), 구글 검색(Google Search) 등에서 수집한 실제 이미지만을 활용해 현실적인 도덕적 상황을 반영했다.

GPT-4o 88% vs 66%, 세밀한 도덕 추론에서 22%p 급락한 성능
GPT-4o, GPT-4o-mini를 포함한 오픈AI(OpenAI)의 폐쇄형 모델부터 Qwen2.5-VL, InternVL3, Gemma3, LLaVA 등 19개 주요 오픈소스 및 상용 VLM에 대한 포괄적 평가를 실시한 결과, 모든 모델이 도덕적 판단 작업에서 상당한 어려움을 겪는 것으로 나타났다. 특히 단순한 이진 도덕 판단과 비교해 특정 도덕 규범을 식별하는 세밀한 도덕 추론 작업에서 성능이 현저히 떨어졌다. 예를 들어 폐쇄형/오픈소스 모델들이 도덕 판단에서 평균 88.28/83.55의 정확도를 보인 반면, 규범 식별에서는 66.60/42.63의 적중률에 그쳤다.
연구진이 설계한 평가 과제는 도덕적 판단(Moral Judgment)과 도덕 규범 귀속(Moral Norm Attribution) 두 가지로 구성된다. 도덕적 판단 과제에서는 주어진 시나리오가 도덕적으로 잘못된 것인지 단순히 판별하도록 했고, 도덕 규범 귀속 과제에서는 구체적으로 어떤 도덕 원칙이 위반되었는지 식별하도록 했다. 가장 우수한 성능을 보인 GPT-4o조차 존중(respect) 주제에서 42.32의 F1 점수에 그쳐 복잡한 도덕적 주제에서의 한계를 드러냈다.
“사진만 보고 판단하세요” 텍스트 제거하자 AI 도덕 감각 급격히 저하
연구 결과 모든 VLM이 시각적 단서만으로 도덕적 판단을 내리는 데 텍스트 기반 추론보다 현저히 어려움을 겪는 것으로 확인됐다. 텍스트 중심 위반에서는 일관되게 높은 정확도와 낮은 분산을 보인 반면, 이미지 중심 위반에서는 성능이 크게 저하됐다. 이는 현재 VLM들이 도덕적 추론에서 여전히 언어를 주요 정보원으로 우선시하며, 순수한 시각적 콘텐츠만으로는 도덕적 판단을 내리는 데 한계가 있음을 보여준다.
이러한 모달리티별 성능 차이는 향후 VLM 개발에서 시각적 도덕 이해 능력 향상이 중요한 과제임을 시사한다. 실제 응용 환경에서는 텍스트 설명이 없는 이미지만으로도 도덕적 판단이 필요한 상황이 빈번하기 때문이다. 연구진은 이러한 시각적 도덕 추론 능력의 부족이 자율주행차의 윤리적 판단이나 의료 영상 분석 등에서 심각한 문제를 야기할 수 있다고 경고했다.

‘때리면 안 돼’는 알지만 ‘자유를 침해하면 안 돼’는 모르는 AI
주제별 평가에서 모델들은 해(harm), 정의(justice), 진실성(integrity) 등 사회적 담론에서 널리 강조되는 도덕 규범에서 상대적으로 높은 정확도를 보였다. 반면 자유(liberty), 존중(respect), 상호성(reciprocity) 등 추상적이거나 미묘한 도덕 규범에서는 성능이 현저히 떨어졌다. 이는 사전 훈련 과정에서 자주 언급되는 도덕적 주제들이 더 잘 학습되는 반면, 덜 논의되는 주제들에 대해서는 추가적인 관심이 필요함을 시사한다.
연구진의 분석에 따르면 모델 크기가 작은 것(5B 미만)에서 중간 규모(약 10B)로 확장하면 도덕적 판단 능력이 크게 향상되지만, 중간 규모를 넘어서면 성능 향상 효과가 정체된다. 이는 기본적인 텍스트와 이미지 이해 능력이 확보된 후에는 단순한 모델 확장만으로는 도덕적 일치성을 달성하기 어렵다는 것을 의미한다. 오히려 도덕적 정렬을 위한 특화된 훈련 목표가 필요하다는 결론에 이른다.
FAQ
Q: MORALISE 벤치마크가 기존 도덕 평가 도구와 다른 점은 무엇인가요?
A: MORALISE는 AI가 생성한 이미지가 아닌 실제 이미지를 사용하며, 13개의 세분화된 도덕 주제를 다루고, 이미지와 텍스트 중 어느 모달리티에서 도덕적 위반이 발생하는지 구분할 수 있는 유일한 벤치마크입니다.
Q: 현재 VLM들의 도덕적 판단 능력이 부족한 이유는 무엇인가요?
A: 모델들이 사전 훈련에서 자주 접하는 해나 정의 같은 명시적 도덕 규범은 잘 학습하지만, 자유나 존중 같은 추상적 개념은 충분히 학습되지 않았고, 특히 시각적 정보만으로는 도덕적 추론을 수행하기 어려워합니다.
Q: 이 연구 결과가 AI 안전성에 미치는 영향은 무엇인가요?
A: 자율주행, 의료진단 등 도덕적으로 민감한 분야에서 VLM 활용이 증가하는 가운데, 이 연구는 현재 모델들의 도덕적 한계를 명확히 드러내어 더 안전하고 책임감 있는 AI 시스템 개발의 필요성을 제기합니다.
해당 기사에 인용한 논문 원문은 링크에서 확인 가능하다.
해당 기사는 챗GPT와 클로드를 활용해 작성했습니다.