별점만 믿다간 낭패! ChatGPT가 470만 개 리뷰를 파헤쳐 밝혀낸 '맛집의 진짜 조건'

“음식은 별로였는데 별점은 4점?” 온라인 리뷰를 보다 보면 이런 의문이 드는 순간이 있다. 별점 하나가 레스토랑 매출을 5~9%나 바꿀 만큼 리뷰의 영향력은 커졌지만, 정작 그 별점이 어디서 나오는지는 잘 알려지지 않았다. 미국 남부 캘리포니아 대학교(University of Southern California) 연구팀이 챗GPT(ChatGPT)를 동원해 무려 17년치 470만 개의 레스토랑 리뷰를 분석했다. 결론은 놀라웠다. 별점을 가장 크게 좌우하는 건 분위기도, 가격도 아니었다.

“맛있는데 불친절” 두 가지 감정을 동시에 읽는 AI

사람들이 레스토랑 리뷰를 쓸 때는 보통 한 가지 감정만 표현하지 않는다. “파스타는 환상적이었는데 30분을 기다렸다”, “분위기는 좋았지만 가격이 너무 비쌌다”처럼 하나의 리뷰 안에 칭찬과 불만이 뒤섞이는 경우가 훨씬 많다. 그러다 보니 별점 3점짜리 리뷰가 실제로는 음식에 대한 극찬일 수도 있고, 서비스에 대한 혹평일 수도 있다.

연구팀이 주목한 것도 바로 이 지점이다. 리뷰 전체가 좋은지 나쁜지를 판단하는 게 아니라, 음식·서비스·분위기·가격·대기 시간·메뉴 다양성이라는 6가지 항목 각각에 대해 고객이 어떻게 느꼈는지를 따로따로 파악하는 것이다. 이를 전문 용어로 ‘측면 기반 감정 분석(Aspect-Based Sentiment Analysis)’이라고 부른다. 쉽게 말해, “이 리뷰에서 음식에 대한 감정은 긍정, 서비스에 대한 감정은 부정”처럼 항목별로 감정을 분류하는 기술이다.

470만 개 리뷰를 ChatGPT에 맡기는 현명한 방법

여기서 현실적인 문제가 생긴다. 470만 개의 리뷰를 챗GPT에 하나하나 분석시키면 비용이 어마어마하게 든다. 그래서 연구팀은 영리한 역할 분담을 택했다.

챗GPT는 ‘어떤 항목을 분석할지’를 결정하는 역할만 맡았다. 600개의 샘플 리뷰를 분석해 고객들이 주로 이야기하는 핵심 주제 6가지를 뽑아낸 것이다. 그 결과 서비스, 음식 품질, 분위기, 대기 시간, 가격, 메뉴 다양성이 선정됐다. 실제로 두 가지 챗GPT 모델이 서비스를 핵심 항목으로 꼽는 비율은 100%였고, 음식 품질은 93% 이상 일치했다.

항목이 정해지자 이후 작업은 훨씬 저렴한 전통적인 머신러닝(Machine Learning) 모델에 넘겼다. 사람이 5,000개의 리뷰에 직접 감정 점수를 매겨 AI를 학습시킨 뒤, 이 AI가 나머지 수백만 건을 자동으로 처리하게 했다. 챗GPT는 방향을 잡고, 머신러닝은 실제 일을 처리하는 팀워크 구조다. 덕분에 비용은 확 줄이면서 실용적인 수준의 분석 정확도(76.6%)를 유지할 수 있었다.

별점을 좌우하는 충격적인 요소

연구팀은 AI가 항목별로 분류한 감정 데이터를 실제 별점과 비교 분석했다. 그리고 어떤 항목이 별점에 얼마나 영향을 미치는지를 수치로 뽑아냈다. 결과는 꽤 직관적이면서도 의외였다.

음식 품질이 압도적인 1위였다. 영향력 수치가 1.58~1.59로, 2위인 서비스(0.74~0.78)의 두 배가 넘었다. 메뉴 다양성(0.66~0.70)이 3위를 차지했다. 놀라운 건 가격이다. 가격은 별점에 통계적으로 의미 있는 영향을 거의 미치지 않았다. 즉, 비싸든 싸든 가격 자체는 별점과 크게 상관이 없다는 뜻이다.

더 흥미로운 발견은 대기 시간이다. 오래 기다릴수록 별점이 오히려 올라가는 경향이 나타났다. 연구팀은 이를 ‘줄이 길면 맛있다는 신호’로 받아들이는 심리, 즉 사회적 증거(Social Proof) 효과로 해석했다. 분위기는 예상과 달리 별점에 부정적인 영향(-0.27~-0.31)을 보였는데, 분위기에 대한 평가는 사람마다 주관적 차이가 커서 결과가 엇갈린 것으로 분석됐다. 이 AI 모델은 별점 변동의 무려 80% 이상을 설명해냈다.

이탈리아 식당은 왜 항상 별점이 높을까?

같은 수준의 레스토랑이라도 어떤 음식을 파느냐, 어느 지역에 있느냐에 따라 별점이 달라진다는 사실도 드러났다. 미국식(American) 레스토랑을 기준으로 비교했을 때 이탈리아 음식점이 가장 높은 별점 프리미엄을 누렸고, 중국 음식점이 그 뒤를 이었다. 반면 태국 음식점은 미세하게 낮은 경향을 보였다.

지역 차이도 뚜렷했다. 뉴저지(New Jersey)와 델라웨어(Delaware) 주는 다른 지역에 비해 통계적으로 유의미하게 높은 별점을 기록했다. 연구팀은 이런 차이가 음식 맛 때문이라기보다는 지역 소비자들의 기대 수준, 경쟁 환경, 경제적 여건이 복합적으로 작용한 결과로 봤다. 결국 별점은 음식만의 문제가 아니라 그 지역의 외식 문화와 맥락을 반영한다는 것이다.

레스토랑에서 시작했지만, 다음 목적지는 병원과 쇼핑몰

이 연구가 단순한 맛집 분석으로 끝나지 않는 이유가 있다. 연구팀이 만든 AI 분석 틀은 어떤 서비스 업종에도 적용할 수 있다. 호텔이라면 객실 청결도·직원 친절도·시설 상태를, 병원이라면 진료 대기 시간·의사 설명·병원 환경을 항목으로 바꾸면 그만이다.

온라인 리뷰를 꼼꼼히 읽는 소비자 비율은 2020년 60%에서 2024년 75%로 빠르게 늘고 있다. 하루에도 수천 건씩 쏟아지는 리뷰를 사람이 일일이 읽는 건 이미 불가능한 일이 됐다. 연구팀은 앞으로 구글 리뷰(Google Reviews)나 트립어드바이저(TripAdvisor) 같은 다른 플랫폼으로도 분석을 확장하고, 코로나19 팬데믹처럼 특정 사건이 고객 감정에 어떤 변화를 일으켰는지도 추적할 계획이다. 별점 하나의 의미를 이렇게까지 파고든 AI 분석이, 이제 우리가 서비스를 경험하고 평가하는 방식 자체를 바꿔놓을지도 모른다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 별점이 높은 레스토랑은 무조건 음식이 맛있는 건가요?

A. 이번 연구에 따르면 음식 품질이 별점에 가장 큰 영향을 미치는 건 사실입니다. 하지만 서비스, 메뉴 다양성, 대기 시간도 함께 작용합니다. 특히 줄이 길수록 별점이 올라가는 경향도 확인됐는데, 이는 ‘많이 기다리는 곳 = 맛있는 곳’이라는 심리가 반영된 결과입니다.

Q. 가격이 비싸면 별점이 낮아지지 않나요?

A. 이번 연구 결과는 의외였습니다. 가격은 별점에 통계적으로 의미 있는 영향을 거의 미치지 않았습니다. 즉, 소비자들은 가격 자체보다 음식 맛과 서비스 품질을 훨씬 중요하게 평가한다는 뜻입니다.

Q. 이런 AI 리뷰 분석 기술을 일반 소비자도 활용할 수 있나요?

A. 현재는 연구 및 기업용 수준이지만, 이 기술이 상용화되면 리뷰 플랫폼에서 “이 식당은 음식 ★★★★☆, 서비스 ★★☆☆☆”처럼 항목별 점수를 자동으로 보여주는 서비스가 가능해집니다. 구글 리뷰나 네이버 플레이스 같은 플랫폼에서 머지않아 만나볼 수 있을 것으로 기대됩니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: Beyond the Star Rating: A Scalable Framework for Aspect-Based Sentiment Analysis Using LLMs and Text Classification

이미지 출처: AI 생성 콘텐츠

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.