“기계는 생각할 수 있는가?” 이제, 그 질문에 다시 답할 때입니다.

2025년, 인공지능(AI) 분야에 있어 역사적인 사건이 일어났습니다. 최신 AI 언어 모델 GPT-4.5가 ‘튜링 테스트’를 통과했다는 연구 결과가 발표된 것입니다. 그것도 단순히 통과한 수준이 아니라, 실제 인간보다 더 ‘인간적으로’ 보였다는 평가까지 받았습니다.

이 실험은 미국 캘리포니아 샌디에이고대학교(UC San Diego) 연구팀이 진행했습니다. GPT-4.5를 포함한 여러 AI 언어 모델을 대상으로, 인간과 얼마나 구별되지 않는지를 평가하는 실험을 했고, 그 결과는 지금 우리가 AI를 바라보는 방식에 중요한 질문을 던지고 있습니다.

‘튜링 테스트’란 무엇인가?

튜링 테스트는 1950년, 영국의 수학자 앨런 튜링이 제안한 실험입니다. 아주 단순한 질문에서 출발했습니다. “기계가 생각할 수 있을까?” 튜링은 이에 대한 하나의 기준을 제시했습니다. 만약 어떤 컴퓨터가 사람과 채팅을 했을 때, 상대방이 그것을 컴퓨터인지 사람인지 구별하지 못한다면, 그 컴퓨터는 ‘지능적이다’라고 볼 수 있다는 것이었습니다.

이 테스트는 실제로 간단하게 이루어집니다. 질문자가 화면을 통해 두 사람과 각각 대화를 나눕니다. 한 명은 인간이고, 다른 하나는 AI입니다. 질문자는 이 둘 중 누가 진짜 사람인지를 맞춰야 합니다. 질문자가 여러 차례 혼동하거나, 오히려 AI를 사람으로 착각한다면, 그 AI는 테스트를 통과한 것입니다.

그동안 이 테스트는 인공지능이 얼마나 정교해졌는지를 평가하는 상징적인 기준으로 여겨졌습니다. 하지만 수십 년 동안 어떤 AI도 뚜렷하게 이 기준을 넘어선 적은 없었습니다.

GPT-4.5는 어떻게 테스트를 통과했을까?

UC 샌디에이고 연구팀은 GPT-4.5 외에도 여러 최신 AI 모델들을 테스트했습니다. 참가자들은 인간과 AI 참가자들을 구별하는 역할을 맡았고, 이들 중 일부는 실제 인간이었습니다. 참가자 수는 총 284명으로, 대화 주제는 일상적인 이야기부터 감정, 유머, 개인 경험 등 다양한 영역에 걸쳐 있었습니다.

그런데 가장 흥미로운 실험 조건은 AI에 특정한 성격, 즉 ‘페르소나’를 부여했을 때입니다. 예를 들어 GPT-4.5에게는 ‘게임과 인터넷 문화를 좋아하는 내성적인 10대 후반’이라는 설정이 주어졌고, 말투도 실제 사람처럼 자연스럽게 조정됐습니다. 슬랭을 쓰고, 문장 끝에 마침표를 잘 쓰지 않고, 줄임말을 사용하는 식입니다.

이러한 ‘페르소나’를 부여한 GPT-4.5는 무려 73%의 확률로 인간으로 착각됐습니다. 실제 인간 참가자보다 더 자주 사람으로 판단된 것입니다. 반면, 페르소나가 없는 AI는 36~38% 정도에 그쳤습니다. 단순히 기술 수준만으로가 아니라, ‘사람처럼 보이게 설계하는 방법’이 인간 유사성에 큰 영향을 미친다는 사실이 확인된 셈입니다.

사람들은 어떻게 AI를 구별하려 했을까?

사람들은 주로 두 가지 방식으로 AI와 사람을 구별하려 했습니다. 하나는 아주 일상적인 대화를 시도하는 것이었습니다. 직업, 취미, 가족 이야기처럼 인간적인 맥락을 파악하려 했습니다. 또 하나는 감정, 유머, 실수처럼 기계가 따라 하기 어려운 부분을 집요하게 살펴보는 방식이었습니다.

가장 효과적이었던 전략은, 일부러 이상한 말을 해서 반응을 보는 것이었습니다. 또는 AI의 한계를 시험하는 식으로 접근하는 경우도 있었습니다. 반면, 단순히 날씨나 취미를 묻는 식의 질문은 거의 효과가 없었습니다.

GPT-4.5, 75년 만에 통과한 튜링 테스트가 뭐지? — 이미지 출처: Large Language Models Pass the Turing Test

하지만 흥미롭게도, 참가자 중 많은 사람들이 결국 “그냥 느낌”으로 판단했다고 답했습니다. 이것은 AI가 사람처럼 느껴지는지 여부는 논리적 판단이 아니라, 미묘한 말투나 분위기 같은 비언어적 요소에 크게 영향을 받는다는 의미입니다.

Large Language Models Pass the Turing Test

AI 리포트와 논문

“AI가 ‘인간 연기’할 때 실제 인간보다 더 인간답다”… 충격적 연구 결과 공개

Large Language Models Pass the Turing Test GPT-4.5, 73% 성공률로 실제 인간 참가자보다 더 인간답게 평가받아 캘리포니아 샌디에이고 대학(UC San Diego)의 연구팀이 최신 대규모 언어 모델(Large Language Model, LLM)인 GPT-4.5와 LLaMa-3.1-405B를 대상으로 튜링 테스트를 실시한 결과, 이들 모델이 인간과 구별되지…

진짜 사람보다 더 사람처럼 말하는 기계

이번 실험은 단지 AI가 말을 잘하게 되었다는 의미만을 담고 있지 않습니다. AI가 사람처럼 ‘행동하는 법’을 익히고 있고, 때로는 진짜 사람보다도 더 설득력 있게 인간을 흉내 내고 있다는 점이 핵심입니다.

이제 우리는 더 이상, 화면 너머에서 이야기하고 있는 상대가 정말 사람인지 확신할 수 없습니다. 소셜미디어, 온라인 상담, 고객 서비스 등 다양한 영역에서 ‘위조된 사람들’이 등장할 수 있습니다. 이들은 진짜처럼 보이지만, 진짜는 아닙니다.

이런 현실은 인간 사회의 기본적인 상호작용 방식에 중대한 질문을 던집니다. “누구를 믿어야 할까?” “진짜 인간이 가진 고유한 특징이란 무엇일까?” 그리고 “이제 AI와 경쟁하는 인간은 어떤 존재가 되어야 할까?”

이야기의 끝이 아니라, 시작

UC 샌디에이고 연구팀은 이번 실험 결과에 대해 이렇게 말했습니다. “기계가 튜링 테스트를 처음으로 통과한 지금, 이는 이야기의 끝이 아니라 새로운 시작입니다. 이제 인간이 더 나은 친구, 예술가, 교사, 부모, 연인이 되기 위해 다시 고민해야 할 때입니다.”

기계가 인간처럼 말할 수 있게 된 시대. 이제 우리가 던져야 할 질문은 바뀌었습니다.

“기계보다 더 인간답게 살 수 있는가?”

GPT-4.5가 통과한 튜링 테스트가 뭐지?

“AI가 ‘인간 연기’할 때 실제 인간보다 더 인간답다”… 충격적 연구 결과 공개

[12월 30일 AI 뉴스 브리핑] 마음AI, 남원시에 로봇개 공공안전 실증 추진 외

챗GPT vs 클로드 vs 제미나이 vs 퍼플렉시티 vs 그록… 14만 대화 분석했더니 ‘이 AI’가 1등

챗GPT, 일반인보다 73% 더 진보적… AI가 만드는 정치 편향의 덫

AI 영상으로 연 60억 번다… 한국, 유튜브 AI 쓰레기 영상 조회수 세계 1위

AI 대부 제프리 힌튼 “AI 진화 속도, 예상보다 빨라… 더 우려스러워”

Highlight

구글, 제미나이 프로 요금제 59% 할인… 2026년 한정 혜택

챗GPT, 2025년 사용 기록 돌아보는 연말 결산 기능 출시

산타 AI 영상 열풍에… 그록, 한국 앱스토어서 1위 달성

[12월 24일 AI 뉴스 브리핑] RECORD X, AI 제작 다큐 ‘트랜스휴먼’…

구글 딥마인드 긴급 보고서… “AI들끼리 협력하는 순간, AGI 탄생할 수 있다”