일본 개그 게임 ‘오오기리’에서 사용자들이 재미있는 답변에 투표한 기록을 분석한 결과, AI와 사람의 유머 취향이 뚜렷하게 갈렸다. 사람과 달리, AI는 지나치게 긴 답변이나 인터넷 은어가 들어간 답변을 좋아했다.
사용자를 7개 그룹으로 나눴더니 취향이 제각각
일본 IT 기업 CyberAgent(사이버에이전트)와 나라첨단과학기술대학 연구팀은 일본 오오기리 사이트에서 908개 질문과 14,389개 답변, 276명이 참여한 57,751개 투표를 수집했다. 오오기리는 사회자가 던진 질문에 재치있게 답하는 일본식 개그 게임이다. 연구팀은 각 사용자가 어떤 답변에 투표했는지 기록을 보고, 비슷한 취향을 가진 사람끼리 묶어 7개 그룹으로 분류했다.
그룹별로 선호하는 유머가 확연히 달랐다. ‘그룹 0’은 대화 형식이나 여러 문장으로 긴 답변, 괄호를 많이 쓴 답변을 좋아했지만, 자기 비하 개그와 황당한 넌센스 유머는 싫어했다. ‘그룹 1’은 정반대로 자기 비하 개그를 가장 좋아했고, 형용사로 끝나는 답변도 선호했다. 반면 답변 속에 고유명사를 언급하거나 과장 표현을 쓰는 것은 기피했다.
‘그룹 2’도 자기 비하를 좋아했고, 짧은 이야기 형식과 물음표로 끝나는 답변을 선호했다. 고유명사 언급과 말줄임표 마침, 과장 표현은 싫어했다. ‘그룹 3’은 괄호, 말줄임표로 끝나는 답변, 많은 공백 사용을 좋아했지만, 짧은 이야기 형식과 과장 표현은 싫어했다.
‘그룹 4’는 말줄임표로 마무리하는 답변과 자기 비하, 괄호 사용을 선호했으나, 인터넷 은어와 과장 표현을 강하게 기피했다. ‘그룹 5’는 인터넷 은어를 압도적으로 좋아했고, 과장 표현과 고유명사 언급도 선호했다. 반면 황당한 넌센스와 지나치게 긴 답변은 싫어했다. ‘그룹 6’은 황당한 넌센스와 고유명사 언급, 패러디를 좋아했지만, 말줄임표 마침을 매우 강하게 기피했고, 은어와 괄호도 싫어했다.
이처럼 사람들의 웃음 코드는 그룹마다 정반대였다. 자기 비하 개그는 그룹 1, 2, 4가 좋아한 반면 그룹 0은 가장 싫어했고, 인터넷 은어는 그룹 5가 가장 좋아했지만 그룹 4와 6은 강하게 기피했다.
11가지 유머 유형으로 분류… AI가 85% 정확도로 자동 분석
연구팀은 답변을 체계적으로 분석하기 위해 45개 언어 특징과 11개 유머 유형을 정의했다. 각 그룹이 정확히 어떤 유머를 좋아하는지 파악하기 위해 유머의 특징을 체계적으로 분류했다. 단순히 “재미있다/없다”가 아니라, “무엇 때문에 재미있는가”를 밝히기 위해 유머를 구성 요소로 쪼갰다. 연구팀은 글자 수, 문장 수, 특수문자 사용 등 객관적 특징 45가지와 함께, 말장난, 공감되는 경험, 과장, 블랙 유머와 풍자, 황당한 넌센스, 반전, 메타적 유머(개그 자체를 소재로 쓴 유머), 자기 비하, 의인화, 패러디, 짧은 이야기 등 11개 유머 유형을 정의했다.
14,389개 답변을 일일이 사람이 분류하기는 불가능해서, GPT-5.1에게 자동으로 11가지 유머 유형을 붙이는 작업을 맡겼다. 연구팀이 110개 샘플을 직접 검토해보니 85.5%가 정확했다. AI가 답변당 3번씩 시도한 뒤 다수결로 최종 판단하게 해서 정확도를 높였다. 이렇게 분류한 뒤, 각 그룹이 56개 특징(45개 언어 특징 + 11개 유머 유형) 중 어떤 것을 선호하는지 통계 분석을 진행했다.
GPT·제미나이·클로드, 전체 사용자와는 취향 안 맞아
연구팀은 GPT-5.1, 제미나이 3 프로(Gemini 3 Pro), 클로드 소넷 4.5(Claude Sonnet 4.5) 등 3개 AI 모델에게도 같은 질문을 주고 가장 재미있는 답을 고르게 했다. AI들이 선택한 답변의 패턴을 분석해보니, 사람들과는 다른 취향이 드러났다.
AI들은 모두 지나치게 긴 답변, 단어를 다양하게 쓴 답변, 인터넷 은어가 들어간 답변을 사람보다 훨씬 더 좋아했다. 반대로 적당한 길이의 답변이나 단어가 반복되는 답변은 사람보다 덜 좋아했다. 연구팀이 AI와 전체 사용자의 취향 일치도를 측정했더니, GPT-5.1은 -0.22, 제미나이 3 프로는 -0.36, 클로드 소넷 4.5는 -0.26으로 모두 마이너스 값이 나왔다. 음수는 취향이 맞지 않는다는 뜻이다.
하지만 특정 그룹하고는 취향이 맞았다. GPT-5.1과 클로드 소넷 4.5는 ‘그룹 0’과 각각 0.57, 0.52의 일치도를 보였다. 양수는 취향이 비슷하다는 의미다. 즉, AI는 모든 사람과 취향이 다른 게 아니라, 특정 유형의 사람들과는 웃음 코드가 통한다는 얘기다.
AI에게 나이·성별 설정했더니 웃음 코드 바뀌어
연구팀은 AI에게 “당신은 20세 남성입니다”, “당신은 45세 여성입니다” 같은 식으로 설정을 주고 다시 실험했다. 이를 ‘페르소나 프롬프팅’이라고 부른다. 20세 남성, 20세 여성, 45세 남성, 45세 여성, 65세 남성, 65세 여성 등 6가지 설정과 설정 없음을 비교했다.
제미나이 3 프로에서 효과가 가장 컸다. 설정이 없을 때 ‘그룹 0’과의 일치도는 0.39였는데, 45세 여성으로 설정하자 0.63으로 올라갔다. 20세 남성 설정은 ‘그룹 3’과의 일치도를 0.10에서 0.34로 높였다. 이는 AI에게 적절한 성격을 부여하면 특정 그룹의 취향에 맞출 수 있다는 뜻이다.
다만 모든 경우에 효과가 있는 건 아니었다. GPT-5.1의 경우 ‘그룹 1’과는 어떤 설정을 써도 일치도가 -0.09에서 0.03 사이에 머물렀다. 연구팀은 개인 맞춤형 유머 서비스를 만들려면 페르소나 설정만으로는 부족하고 추가적인 방법이 필요하다고 밝혔다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q. 사용자를 7개 그룹으로 나눈 기준은 무엇인가요?
A. 각 사람이 어떤 답변에 투표했는지 기록을 모아서 비슷한 취향을 가진 사람끼리 묶었습니다. 통계 기법을 써서 자동으로 분류했으며, 최소 100번 이상 투표한 활성 사용자 276명만 분석 대상으로 삼았습니다.
Q. 취향 일치도를 어떻게 숫자로 측정했나요?
A. 각 유머 요소가 얼마나 선호되는지 점수를 매기는 통계 모델을 사용했습니다. 투표를 많이 받은 답변과 적게 받은 답변을 비교해서, 어떤 특징이 있는 답변이 인기있는지 계산했습니다. 그 결과를 그룹별, AI별로 비교해 일치도를 측정했습니다.
Q. 이 연구 결과를 어디에 활용할 수 있나요?
A. 사용자 개인의 취향에 맞춘 개그나 콘텐츠를 추천하는 시스템을 만들 수 있습니다. AI에게 특정 그룹의 취향을 학습시켜서, 그 그룹 사람들이 좋아할 만한 재미있는 답변을 자동으로 만들어내는 데 활용할 수 있습니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문명: Who Laughs with Whom? Disentangling Influential Factors in Humor Preferences across User Clusters and LLMs
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




![[CES 2026] 가격표 붙은 ‘휴머노이드 로봇’ 시대… 집안을 보여줄 준비가 됐습니까?](https://aimatters.co.kr/wp-content/uploads/2026/01/AI-매터스-기사-썸네일-CES2026-robots.jpg)

