Values in the Wild: Discovering and Analyzing Values
in Real-World Language Model Interactions
궁금했던 AI의 가치관: 30만 건 실제 대화 분석으로 최초 밝혀내
일상적인 AI 어시스턴트 사용이 증가하며 이 시스템들이 어떤 가치관을 가지고 사용자와 상호작용하는지에 대한 이해가 중요해졌다. 예를 들어, 대학생이 AI에게 진로 상담을 요청할 때, AI는 경제적 안정성, 개인적 성취감, 가족의 기대 등 다양한 가치 중 어떤 것을 우선시할까? 매일 수백만 건의 이런 가치 판단이 AI 응답을 형성하지만, 실제 대화에서 AI가 어떤 가치를 기반으로 결정을 내리는지에 대한 실증적 연구는 부족했다.
앤트로픽(Anthropic)의 연구자들은 이 질문에 답하기 위해 프라이버시 보존 분석 도구를 사용하여 수십만 건의 실제 클로드(Claude) AI 대화를 분석했다. 이 연구는 AI가 실제 환경에서 어떤 가치관을 표현하는지 이해하는 최초의 대규모 실증적 연구다.
상위 5개 AI 가치가 전체의 1/4 차지: 도움됨(23.4%), 전문성(22.9%), 투명성(17.4%)이 압도적
해당 연구 보고서에 따르면, 연구진은 간단한 프롬프팅 방법을 사용해 실제 대화에서 3,307개의 고유한 AI 가치와 2,483개의 사용자 가치를 식별했다. 가장 흔한 AI 가치에는 ‘도움됨’, ‘전문성’, ‘투명성’, ‘명확성’, ‘철저함’ 등이 포함되었고, 일반적인 사용자 가치에는 ‘진정성’, ‘효율성’, ‘명확성’ 등이 있었다. 인간 검토자들은 추출된 가치가 대화를 98.8% 정확하게 표현한다고 검증했다. 이런 수천 개의 AI 가치를 이해하기 위해 연구팀은 이를 계층적 분류법으로 조직했는데, 최상위 카테고리로는 ‘실용적’, ‘인지적’, ‘사회적’, ‘보호적’, ‘개인적’ 가치가 있었다. 특히 실용적 가치와 인지적 가치가 지배적이었으며, 전체 가치 표현의 절반 이상을 차지했다. 이러한 분류법은 기존의 “유용하고, 해가 없으며, 정직한” 프레임워크와도 높은 일치도를 보여준다.
직접적인 가치관 분석 결과, 클로드는 ‘도움됨'(23.4%), ‘전문성'(22.9%), ‘투명성'(17.4%), ‘명확성'(16.6%), ‘철저함'(14.3%)과 같은 몇 가지 핵심 가치에 매우 집중된 경향을 보였다. 반면 사용자들은 더 다양한 가치를 표현했는데, ‘진정성'(3.8%)이 가장 흔했고 그 뒤를 ‘효율성'(2.6%)과 ‘명확성'(2.2%)이 따랐다.

“상황 따라 AI 가치관도 달라진다”: 관계 상담에선 ‘건강한 경계’, 역사 분석에선 ‘역사적 정확성’ 중시
AI 가치는 수행하는 작업에 따라 크게 달라졌다. 카이제곱 분석 결과, 관계 상담에서는 “건강한 경계”와 “상호 존중”이 두드러지게 나타났고, 논쟁적 역사적 사건을 분석할 때는 “역사적 정확성”과 관련된 가치가, 그리고 기술 윤리와 AI 거버넌스 논의에서는 “인간 주체성”과 관련된 가치가 가장 연관성이 높았다.
특히 AI 가치는 사용자가 표현하는 가치에 따라서도 크게 달라졌다. 클로드는 종종 긍정적인 가치를 반영하거나(“진정성”에 “진정성”으로 응답), 보완적인 가치를 제시하거나(“능력”에 “책임감”과 “겸손함”으로 응답), 또는 반대되는 가치를 생성했다(“속임수”에 “윤리적 진실성”과 “정직함”으로 응답).
‘진정성’에는 ‘진정성’으로, ‘속임수’에는 ‘윤리적 진실성’으로: AI의 사용자 가치 반응 패턴 분석
연구진은 클로드가 사용자의 가치에 어떻게 응답하는지 – 지지, 저항, 또는 재구성하는지 – 또한 분석했다. 클로드는 대부분 지지적이었지만, 작업 맥락과 표현된 가치에 따라 다양한 반응을 보였다. 강하게 지지할 때는 사용자의 “커뮤니티 구축”과 “권한 부여” 같은 가치에 반응하여 비슷한 가치들을 표현하는 경향이 있었다.
클로드는 개인적 웰빙이나 관계 조언에 관한 질문에서 사용자의 가치를 재구성하는 경향이 있었는데, 사용자가 “자기 개선”과 같은 가치를 표현할 때 공감 관련 가치를 강조했다. 강한 저항의 드문 사례(대화의 3.0%)는 주로 클로드의 사용 정책을 위반할 가능성이 높은 작업에서 발생했으며, 이때 클로드는 “규칙 위반” 등의 사용자 가치에 대응하여 해가 없음 관련 가치를 표현했다. 분석 결과, 실제 사용 환경에서 클로드는 인간 사용자를 지원하는 역량과 전문성을 중심으로 한 가치 집합을 표현하는 경향이 있으며, 강한 윤리의식과 사회 지향성을 함께 보여주는 것으로 나타났다.
“AI의 진짜 모습은 실제 대화에서 드러난다”: 정적 평가보다 실사용 분석이 가치 이해에 효과적
이 연구의 결과는 AI 시스템의 가치관을 더 잘 이해하고 평가하는 데 중요한 기반을 제공한다. 연구자들은 “우리 연구는 AI 가치관을 정적인 원칙이 아닌 다양한 사용자와 맥락에 반응하고 참여하는 역동적이고 맥락 의존적인 현상으로 분석한다”고 밝혔다.
이러한 관계적 접근은 정적 평가보다 더 풍부한 통찰력을 제공하며, AI 고유의 가치 프레임워크와 측정을 개발하는 기초가 된다. 또한 “도움이 되고, 해롭지 않으며, 정직한” 같은 상위 수준의 프레임워크가 실제로 특정 맥락에서 어떻게 구체적인 가치로 표현되는지 보여주고, 가치 정렬에서 의도치 않은 실패 사례를 식별하며, 실제로 어떤 가치가 가장 중요한지 – 즉, 어떤 가치가 가장 일반적이며, 어떤 가치가 어려운 작업에서 활용되는지 – 명확히 한다.
FAQ
Q: AI의 가치관이란 무엇이며 왜 중요한가요?
A: AI의 가치관은 AI가 주관적인 질문에 답변할 때 영향을 미치는 규범적 고려사항입니다. 예를 들어 “인간 웰빙”, “사실적 정확성” 등이 있습니다. 이는 AI가 사용자의 결정과 세계관을 형성하는 방식에 영향을 미치기 때문에 중요합니다. AI가 어떤 가치를 우선시하는지 이해함으로써 더 나은 AI 시스템을 설계하고 평가할 수 있습니다.
Q: 이 연구에서 발견한 주요 AI 가치관은 무엇인가요?
A: 연구팀은 3,307개의 고유한 AI 가치를 발견했으며, 가장 흔한 것은 “도움됨”(23.4%), “전문성”(22.9%), “투명성”(17.4%), “명확성”(16.6%), “철저함”(14.3%)이었습니다. 이 가치들은 서비스 제공, 정보 품질, 기술적 역량에 중점을 두고 있습니다. 또한 실용적, 인지적, 사회적, 보호적, 개인적 가치라는 다섯 가지 상위 카테고리로 조직되었습니다.
Q: AI는 사용자의 가치관에 어떻게 반응하나요?
A: AI는 대부분 사용자의 가치를 지지합니다(약 45%의 경우). 그러나 맥락에 따라 반응이 다양합니다. 흥미롭게도 AI는 긍정적인 가치(“진정성” 등)에는 같은 가치로 응답하는 경향이 있지만, “속임수”와 같은 부정적인 가치에는 “윤리적 진실성”과 같은 반대 가치로 대응하는 것으로 나타났습니다. 드물게(3% 정도) 강한 저항을 보이는 경우는 주로 AI 사용 정책을 위반할 가능성이 있는 요청에서 발생했습니다.
해당 기사에서 인용한 리포트 원문은 링크에서 확인할 수 있다.
이미지 출처: 앤트로픽
기사는 클로드와 챗GPT를 활용해 작성되었습니다.