Search

“AI 로봇 vs 사람 조종 로봇, 대화로 구분해 보세요”… 34명 실험 결과 ‘깜짝’

AI or Human? Understanding Perceptions of Embodied Robots with LLMs
이미지 출처: AI or Human? Understanding Perceptions of Embodied Robots with LLMs

스페인 바르셀로나 로봇연구소에서 재미있는 실험을 했다. 34명이 로봇과 직접 대화를 나눠보고, 그 로봇을 조종하는 게 AI인지 진짜 사람인지 맞춰보는 실험이었다. 연구진은 GPT-4o-mini를 넣은 로봇 IVO를 만들어 진짜 사람처럼 대화할 수 있게 했다. 실험 참가자들은 로봇에게 길 물어보기, 택배 전달하기 같은 일상적인 일을 시켜봤다.

결과는 놀라웠다. 34명 중 정답을 맞춘 사람은 절반 정도뿐이었다. 정확히는 52.21%로, 더 재미있는 건 실제로는 사람이 조종하는 로봇을 “이건 AI다”라고 잘못 판단한 경우가 50번이나 됐다는 점이다. 반대로 AI를 사람으로 착각한 건 15번뿐이었다. 사람들이 정중하고 딱딱한 말투를 AI의 특징이라고 생각한다는 걸 보여준다.

답변 속도 때문에 AI인 줄 알았는데 알고 보니 사람이었다

사람들이 AI를 구분하는 가장 큰 기준은 답변 속도와 말하는 방식이었다. “대답이 너무 늦다”는 이유로 AI라고 생각한 경우가 무려 90번이나 됐다. 그런데 이 중 37번은 실제로는 사람이 조종하는 로봇이었고, 53번만 진짜 AI였다. 34명 중 17명이 AI에게, 13명이 사람에게 “답변이 느리다”고 했으니 거의 모든 사람이 이걸 중요하게 생각한 셈이다.

말하는 방식도 중요했다. 사람들은 AI가 너무 정중하고 딱딱하게 말한다고 생각했다. 그런데 웃긴 건 실험에서 사람들이 정해진 규칙대로 말하다 보니 AI보다 더 로봇처럼 말했다는 점이다. 그래서 참가자들이 “이 사람이 일부러 로봇처럼 말하는 건가?”라고 의심하기도 했다. 연구진은 “AI는 부자연스럽고 너무 정중하다고 생각하지만, 사람도 정해진 규칙을 따르면 오히려 기계처럼 보일 수 있다”고 설명했다.

젊은 사람일수록 AI 구분 잘해… 챗봇 많이 써봐서?

참가자들의 나이와 챗봇 사용 경험을 살펴보니 재미있는 패턴이 나타났다. 젊은 사람일수록 챗봇을 더 자주 쓰고, AI를 더 잘 구분했다. 실제로 실험에 참가한 대부분의 사람들이 매일 챗봇을 사용한다고 답했다.

자신감과 정답률의 관계도 흥미로웠다. AI가 조종하는 로봇의 경우 “확실하다”고 답한 사람일수록 정답을 많이 맞췄다. 하지만 사람이 조종하는 로봇은 반대였다. 확신할수록 틀렸다. 이는 사람들이 AI가 어떻게 말하는지는 잘 알지만, 사람이 어떻게 말하는지에 대해서는 잘못 생각하고 있다는 뜻이다.

AI가 헛소리하면 정체 들통… 하지만 그런 일은 거의 없어

이번 실험에서 주목할 점 중 하나는 AI가 엉뚱한 답을 하는 ‘헛소리’ 현상이 거의 없었다는 것이다. RAG라는 기술을 써서 AI가 정확한 정보만 가지고 답하도록 했더니, 64번의 대화 중에서 단 8번만 이상한 답을 했다. 연구진은 AI의 헛소리를 두 종류로 나눠서 살펴봤는데, 알고 있어야 할 정보에 대한 잘못된 답은 아예 없었고, 모르는 정보에 대해 아는 척한 경우만 8번 있었다.

재미있게도 AI가 헛소리를 한 8번 중 6번에서 사람들이 “이건 AI다”라고 정확히 맞췄다. AI가 이상한 말을 하면 바로 정체가 들통나는 셈이다. 연구진은 “RAG 기술이 AI의 실수를 줄이고 답변의 질을 높이는 데 효과가 있었다”고 말했다.

FAQ

Q: 튜링 테스트가 뭔가요?

A: 1950년 앨런 튜링이라는 학자가 만든 AI 시험 방법입니다. 사람이 기계와 대화할 때 그게 기계인지 사람인지 구분 못 하면, 그 기계는 똑똑하다고 보는 거예요.

Q: 실험에 쓰인 로봇 IVO는 뭘 할 수 있나요?

A: IVO는 양손을 가진 로봇으로 물건을 잡고, 돌아다니면서, 사람 말을 듣고 대답할 수 있어요. 챗GPT 같은 AI와 음성인식 기술이 들어있어서 사람처럼 대화할 수 있습니다.

Q: 왜 사람이 조종하는 로봇을 AI로 더 많이 착각했나요?

A: 실험에서 사람들이 정해진 규칙을 따라 너무 정중하고 딱딱하게 말했거든요. 사람들은 예의바르고 격식 차린 말투를 AI의 특징이라고 생각하기 때문에 이런 착각이 생겼어요.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문 명: AI or Human? Understanding Perceptions of Embodied Robots with LLMs

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




“AI 로봇 vs 사람 조종 로봇, 대화로 구분해 보세요”… 34명 실험 결과 ‘깜짝’ – AI 매터스 l AI Matters