챗GPT vs 클로드 vs 제미나이 vs 퍼플렉시티 vs 그록… 14만 대화 분석했더니 '이 AI'가 1등

미국 인디애나대학교 연구팀이 챗GPT, 클로드, 제미나이, 그록, 퍼플렉시티 총 5개 주요 AI 챗봇의 실제 대화 14만 2,808건을 분석했다. 그 결과 AI마다 사용자 질문을 해결하는 능력, 정보를 찾아오는 방식, 응답 속도 패턴이 완전히 다른 것으로 나타났다. 이번 연구는 실험실이 아닌 실제 사용 환경에서 AI 챗봇들의 진짜 실력을 비교한 첫 대규모 연구다.

사용자 의도 충족률 1위는 ‘클로드’ 87%… 2위 챗GPT 82%

연구팀이 ‘대화 완결성’을 분석한 결과, 클로드가 추출된 사용자 의도의 87%를 완벽하게 해결하며 1위를 차지했다. 챗GPT는 82%로 2위를 기록했다. 반면 제미나이는 76%, 그록은 73%에 그쳤다. 퍼플렉시티는 완벽한 답변이 67%에 불과했지만, 부분적인 답변을 25%나 제공해 검색 엔진 특성을 보여줬다.

한 번의 대화에서 다루는 사용자 의도 개수도 AI마다 달랐다. 챗GPT와 클로드는 대화 한 번에 평균 2개의 의도를 처리했지만, 제미나이, 그록, 퍼플렉시티는 평균 1개만 다뤘다. 이는 챗GPT와 클로드가 여러 가지 문제를 동시에 해결하는 데 더 강하다는 뜻이다. 연구팀은 AI 모델 Qwen3-8B를 이용해 각 대화에서 사용자가 원하는 것을 추출한 뒤, ‘완전히 해결’, ‘부분 해결’, ‘해결 못 함’으로 나눠 평가했다.

다만 이 결과는 개별 의도 수준에서 분석한 것이며, 대화 전체를 봤을 때의 완결성 점수는 챗GPT, 클로드, 그록, 퍼플렉시티 모두 만점에 가까웠고, 제미나이만 다소 낮았다.

그록은 ‘X’ 집중 의존, 퍼플렉시티는 ‘위키백과’ 등 다양한 출처 활용

정보를 어디서 가져오는지 분석했더니 AI마다 전혀 다른 전략을 쓰고 있었다. 그록은 전체 1만 4,415건의 대화 중 57%에서 출처를 밝혔는데, 그중 대부분이 소셜미디어 X(옛 트위터)였다. 그록은 X를 특별하게 취급하며 소수의 출처만 집중적으로 활용했다. 반면 퍼플렉시티는 전체 1만 7,305건 중 49%에서 출처를 제시했으며, 영어 위키백과를 가장 많이 인용했지만 그록처럼 한 곳에만 의존하지는 않았다.

한 대화에서 사용한 출처 개수를 보면 차이가 더 극명했다. 그록은 최대 83개, 퍼플렉시티는 무려 1,059개의 출처를 활용했다. 퍼플렉시티는 수십 개의 다양한 출처를 참고하는 방식으로 더 체계적이고 안정적인 정보 검색을 했다. 연구팀은 “그록이 X에 의존하는 것은 최신 정보를 빨리 가져올 수 있지만, 잘못된 정보나 편향된 내용을 전달할 위험도 크다”고 지적했다.

챗GPT는 대화할수록 빨라지고, 그록은 느려진다

대화 시간을 분석한 결과, 플랫폼마다 정반대의 패턴이 나타났다. 챗GPT는 대화를 계속할수록 AI 응답 속도가 점점 빨라지는 경향을 보였다. 이는 이전 대화 내용을 저장해두고 재활용하는 캐싱 기술 덕분으로 보인다. 반면 그록은 정반대였다. 대화가 길어질수록 응답 시간이 오히려 증가했다. 실제 체감 속도를 보면 챗GPT가 평균 7초 안팎, 그록이 평균 17초 정도로 챗GPT가 2배 이상 빨랐다. 사용자가 다음 질문을 하기까지 걸린 시간은 두 플랫폼 모두 평균 90초 정도로 비슷했다. 다만 일부 사용자는 10분 이상 생각한 뒤 다음 질문을 하기도 했다.

흥미로운 점은 AI가 긴 답변을 준다고 해서 사용자가 다음 질문을 늦게 하는 것은 아니라는 사실이다. 답변 길이와 사용자 반응 시간 사이에는 거의 관련성이 없었다.

기존 데이터보다 2배 긴 대화, 101개 언어 분석… 챗GPT가 전체의 72%

이번에 공개된 쉐어챗(SHARECHAT) 데이터셋은 기존 AI 대화 데이터를 압도하는 규모다. 총 14만 2,808개의 대화와 66만여 개의 주고받은 메시지를 담고 있으며, 대화 한 건당 평균 주고받은 횟수는 4.62번으로 기존 데이터보다 2배가 넘는다. 특히 챗GPT는 평균 5.28번, 제미나이는 4.92번을 기록하며 긴 대화에 강한 모습을 보였다. AI 답변의 평균 길이도 기존 데이터보다 5배 이상 길어 실제 사용자와 깊이 있는 대화를 나눈 내용을 담고 있다.

다만 데이터 수집량은 플랫폼별로 큰 차이가 있다. 챗GPT가 전체의 약 72%인 10만 2,740건을 차지하는 반면, 퍼플렉시티는 1만 7,305건, 그록은 1만 4,415건, 제미나이는 7,402건, 클로드는 1% 미만인 946건에 불과했다. 이러한 불균형은 연구팀도 한계점으로 인정했다.

언어 다양성도 뛰어나다. 101개 언어를 지원하며, 기존 최고 수준이던 65개 언어를 크게 넘어섰다. 영어가 전체의 62%로 가장 많았고, 일본어 18%, 스페인어 3%, 독일어와 프랑스어가 각각 2% 순이었다. 데이터 수집 기간도 플랫폼마다 달랐다. 챗GPT는 2023년 5월부터 2025년 8월까지, 퍼플렉시티는 2023년 4월부터 2025년 10월까지 수집됐다. 반면 그록은 2024년 12월부터, 제미나이는 2024년 4월부터 데이터가 확보됐다.

독성 콘텐츠 분석… 클로드 가장 높고 퍼플렉시티 가장 낮아

연구팀은 Detoxify와 OpenAI 두 가지 독성 탐지 도구를 사용해 사용자가 입력한 메시지와 AI가 생성한 응답 모두에서 욕설, 혐오, 위협 등의 유해 콘텐츠를 분석했다. Detoxify 기준으로 클로드에서 가장 높은 비율의 독성 콘텐츠가 발견됐다. 클로드 사용자가 보낸 메시지의 5.6%가 유해 콘텐츠로 분류됐고, 클로드가 생성한 AI 응답도 6.4%가 독성으로 판정됐다. 반면 퍼플렉시티는 가장 낮아서 사용자 메시지 2.8%, AI 응답 0.5%만이 독성으로 분류됐다.

OpenAI 방식으로 측정했을 때는 수치가 달라졌다. 클로드의 사용자 메시지 독성률은 2.7%, AI 응답은 3.1%였으며, 퍼플렉시티는 사용자 메시지 1.3%, AI 응답 1.8%를 기록했다. 두 측정 방식 간 차이가 있었지만, 플랫폼별 순위는 비슷했다. 흥미로운 점은 사용자가 독성 메시지를 많이 보내는 플랫폼에서 AI 응답도 독성이 높게 나타났다는 것이다. 클로드는 사용자 메시지와 AI 응답 모두에서 가장 높은 독성률을 보였고, 퍼플렉시티는 양쪽 모두에서 가장 낮았다.

전체적으로 이번 데이터셋은 기존 데이터보다 독성 콘텐츠가 훨씬 적었다. 사용자 메시지의 독성 비율은 4% 수준으로, 기존 연구의 8%보다 낮았다. AI 응답도 2% 미만으로 기존 5%보다 크게 낮았다. 이는 사용자들이 다른 사람과 공유할 대화를 선택할 때 더 긍정적이고 건설적인 내용을 고르기 때문으로 보인다. 연구팀은 이를 ‘자기선택 편향(Self-Selection Bias)’이라고 설명하며, 대신 연구 참여를 알고 행동을 바꾸는 ‘관찰자 편향(Observer Bias)’은 최소화됐다고 밝혔다.

사람들이 AI에게 가장 많이 요청하는 건? ‘정보 검색’ 40%로 1위

사용자들이 AI에게 무엇을 요청하는지 분석한 결과, 정보 검색이 약 40%로 압도적 1위였다. 사람들은 여전히 AI를 ‘질문에 답하는 도구’로 가장 많이 사용한다. 2위는 분류하기 어려운 기타 항목(19%)이었고, 3위는 기술 도움 요청(12%), 4위는 글쓰기(10%)였다. 실용적인 조언 구하기와 자기표현은 각각 8% 정도로 비슷한 비율을 보였다. 이미지나 동영상 같은 멀티미디어 요청은 2%에 불과했는데, 이는 데이터 수집 당시 AI의 멀티미디어 기능이 제한적이었기 때문으로 보인다.

쉐어챗 데이터셋의 또 다른 특징은 플랫폼별 고유 기능을 보존했다는 점이다. 클로드는 ‘생각 블록(Thinking Blocks)’이라는 중간 추론 과정과 버전별 코드 결과물을 보존해, 반복적인 코딩 과정 분석이 가능하다. 그록도 생각 블록을 제공한다. 퍼플렉시티는 답변을 ‘대답’, ‘출처’, ‘이미지’로 구조화하며 인라인 인용을 포함한다. 챗GPT와 그록은 메시지마다 시간 정보를 제공해 대화 리듬 분석이 가능하다. 챗GPT는 사용된 모델 버전(예: gpt-4 등) 정보도 함께 기록되어, 시간에 따른 모델 업데이트의 영향도 추적할 수 있다.

독자 FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 쉐어챗 데이터셋은 기존 AI 대화 데이터와 어떻게 다른가요?

A. 쉐어챗은 챗GPT, 클로드, 제미나이, 그록, 퍼플렉시티 총 5개 플랫폼의 실제 대화를 모은 최초의 다중 플랫폼 데이터입니다. 대화 주고받은 횟수가 평균 4.62번으로 기존보다 2배 길고, 101개 언어를 지원하며, 각 플랫폼의 특수 기능(추론 과정, 출처 링크, 시간 정보 등)까지 보존했습니다. 또한 사용자가 대화 후 자발적으로 공유한 링크를 수집해 관찰자 편향을 줄였습니다.

Q. 어떤 AI가 질문에 가장 정확하게 답하나요?

A. 추출된 사용자 의도를 기준으로 클로드가 87%로 1위, 챗GPT가 82%로 2위였습니다. 두 AI는 사용자가 원하는 답을 완벽하게 제공하는 비율이 가장 높았고, 한 대화에서 평균 2개의 의도를 처리했습니다. 퍼플렉시티는 검색 엔진 특성상 부분적인 답변이 많았고, 제미나이와 그록은 중간 수준이었습니다.

Q. AI 응답 속도는 대화가 길어지면 어떻게 바뀌나요?

A. 챗GPT는 대화할수록 답변 속도가 빨라지지만, 그록은 오히려 느려집니다. 챗GPT는 이전 대화를 저장해 재활용하는 캐싱 기술로 속도를 높이는 반면, 그록은 대화가 길어질수록 처리해야 할 정보가 많아져 느려지는 것으로 보입니다. 일반적으로 챗GPT는 7초, 그록은 17초 정도 걸립니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: ShareChat: A Dataset of Chatbot Conversations in the Wild

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.