안녕하세요, AI 매터스 입니다.

AI 매터스는 생성형 AI 분야에서 수없이 쏟아져 나오는 소식 중에서 꼭 참고해야 할 내용을 엄선해 매일 기사를 발행하고 있습니다. 그 가운데 놓치지 말아야 할 중요한 이슈들을 정리하여 뉴스레터로 제공해드립니다.

AI 매터스와 함께 최신 AI 트렌드를 빠르게 파악해보세요.

“기계는 생각할 수 있는가?” 이제, 그 질문에 다시 답할 때입니다.

2025년, 인공지능(AI) 분야에 있어 역사적인 사건이 일어났습니다. 최신 AI 언어 모델 GPT-4.5가 ‘튜링 테스트’를 통과했다는 연구 결과가 발표된 것입니다. 그것도 단순히 통과한 수준이 아니라, 실제 인간보다 더 ‘인간적으로’ 보였다는 평가까지 받았습니다.

이 실험은 미국 캘리포니아 샌디에이고대학교(UC San Diego) 연구팀이 진행했습니다. GPT-4.5를 포함한 여러 AI 언어 모델을 대상으로, 인간과 얼마나 구별되지 않는지를 평가하는 실험을 했고, 그 결과는 지금 우리가 AI를 바라보는 방식에 중요한 질문을 던지고 있습니다.

‘튜링 테스트’란 무엇인가?

튜링 테스트는 1950년, 영국의 수학자 앨런 튜링이 제안한 실험입니다. 아주 단순한 질문에서 출발했습니다. “기계가 생각할 수 있을까?” 튜링은 이에 대한 하나의 기준을 제시했습니다. 만약 어떤 컴퓨터가 사람과 채팅을 했을 때, 상대방이 그것을 컴퓨터인지 사람인지 구별하지 못한다면, 그 컴퓨터는 ‘지능적이다’라고 볼 수 있다는 것이었습니다.

이 테스트는 실제로 간단하게 이루어집니다. 질문자가 화면을 통해 두 사람과 각각 대화를 나눕니다. 한 명은 인간이고, 다른 하나는 AI입니다. 질문자는 이 둘 중 누가 진짜 사람인지를 맞춰야 합니다. 질문자가 여러 차례 혼동하거나, 오히려 AI를 사람으로 착각한다면, 그 AI는 테스트를 통과한 것입니다.

그동안 이 테스트는 인공지능이 얼마나 정교해졌는지를 평가하는 상징적인 기준으로 여겨졌습니다. 하지만 수십 년 동안 어떤 AI도 뚜렷하게 이 기준을 넘어선 적은 없었습니다.

GPT-4.5는 어떻게 테스트를 통과했을까?

UC 샌디에이고 연구팀은 GPT-4.5 외에도 여러 최신 AI 모델들을 테스트했습니다. 참가자들은 인간과 AI 참가자들을 구별하는 역할을 맡았고, 이들 중 일부는 실제 인간이었습니다. 참가자 수는 총 284명으로, 대화 주제는 일상적인 이야기부터 감정, 유머, 개인 경험 등 다양한 영역에 걸쳐 있었습니다.

그런데 가장 흥미로운 실험 조건은 AI에 특정한 성격, 즉 ‘페르소나’를 부여했을 때입니다. 예를 들어 GPT-4.5에게는 ‘게임과 인터넷 문화를 좋아하는 내성적인 10대 후반’이라는 설정이 주어졌고, 말투도 실제 사람처럼 자연스럽게 조정됐습니다. 슬랭을 쓰고, 문장 끝에 마침표를 잘 쓰지 않고, 줄임말을 사용하는 식입니다.

이러한 ‘페르소나’를 부여한 GPT-4.5는 무려 73%의 확률로 인간으로 착각됐습니다. 실제 인간 참가자보다 더 자주 사람으로 판단된 것입니다. 반면, 페르소나가 없는 AI는 36~38% 정도에 그쳤습니다. 단순히 기술 수준만으로가 아니라, ‘사람처럼 보이게 설계하는 방법’이 인간 유사성에 큰 영향을 미친다는 사실이 확인된 셈입니다.

사람들은 어떻게 AI를 구별하려 했을까?

사람들은 주로 두 가지 방식으로 AI와 사람을 구별하려 했습니다. 하나는 아주 일상적인 대화를 시도하는 것이었습니다. 직업, 취미, 가족 이야기처럼 인간적인 맥락을 파악하려 했습니다. 또 하나는 감정, 유머, 실수처럼 기계가 따라 하기 어려운 부분을 집요하게 살펴보는 방식이었습니다.

가장 효과적이었던 전략은, 일부러 이상한 말을 해서 반응을 보는 것이었습니다. 또는 AI의 한계를 시험하는 식으로 접근하는 경우도 있었습니다. 반면, 단순히 날씨나 취미를 묻는 식의 질문은 거의 효과가 없었습니다.

GPT-4.5, 75년 만에 통과한 튜링 테스트가 뭐지? — 이미지 출처: Large Language Models Pass the Turing Test

하지만 흥미롭게도, 참가자 중 많은 사람들이 결국 “그냥 느낌”으로 판단했다고 답했습니다. 이것은 AI가 사람처럼 느껴지는지 여부는 논리적 판단이 아니라, 미묘한 말투나 분위기 같은 비언어적 요소에 크게 영향을 받는다는 의미입니다.

Large Language Models Pass the Turing Test

AI 리포트와 논문

“AI가 ‘인간 연기’할 때 실제 인간보다 더 인간답다”… 충격적 연구 결과 공개

Large Language Models Pass the Turing Test GPT-4.5, 73% 성공률로 실제 인간 참가자보다 더 인간답게 평가받아 캘리포니아 샌디에이고 대학(UC San Diego)의 연구팀이 최신 대규모 언어 모델(Large Language Model, LLM)인 GPT-4.5와 LLaMa-3.1-405B를 대상으로 튜링 테스트를 실시한 결과, 이들 모델이 인간과 구별되지…

진짜 사람보다 더 사람처럼 말하는 기계

이번 실험은 단지 AI가 말을 잘하게 되었다는 의미만을 담고 있지 않습니다. AI가 사람처럼 ‘행동하는 법’을 익히고 있고, 때로는 진짜 사람보다도 더 설득력 있게 인간을 흉내 내고 있다는 점이 핵심입니다.

이제 우리는 더 이상, 화면 너머에서 이야기하고 있는 상대가 정말 사람인지 확신할 수 없습니다. 소셜미디어, 온라인 상담, 고객 서비스 등 다양한 영역에서 ‘위조된 사람들’이 등장할 수 있습니다. 이들은 진짜처럼 보이지만, 진짜는 아닙니다.

이런 현실은 인간 사회의 기본적인 상호작용 방식에 중대한 질문을 던집니다. “누구를 믿어야 할까?” “진짜 인간이 가진 고유한 특징이란 무엇일까?” 그리고 “이제 AI와 경쟁하는 인간은 어떤 존재가 되어야 할까?”

이야기의 끝이 아니라, 시작

UC 샌디에이고 연구팀은 이번 실험 결과에 대해 이렇게 말했습니다. “기계가 튜링 테스트를 처음으로 통과한 지금, 이는 이야기의 끝이 아니라 새로운 시작입니다. 이제 인간이 더 나은 친구, 예술가, 교사, 부모, 연인이 되기 위해 다시 고민해야 할 때입니다.”

기계가 인간처럼 말할 수 있게 된 시대. 이제 우리가 던져야 할 질문은 바뀌었습니다.

“기계보다 더 인간답게 살 수 있는가?”

AI Campaign 눈에 띄는 AI 캠페인

[리얼 캠페인 탐구] ‘AI 레시피’에 도전한 KFC가 말하고 싶었던 진짜 메시지는 ‘인간의 감각’

수천 가지 레시피가 난무하는 치킨 세계에서, “KFC의 오리지널 레시피를 이길 수 있는 치킨이 과연 존재할까?”라는 질문은 꽤 오래된 화두였습니다. 85년 전통의 시그니처 레시피와, 인터넷상의 수많은 ‘최고의 치킨 레시피’를 모두 집대성해 만들어낸 AI표 레시피가 맞붙는 ‘KFC vs AI’ 캠페인은 바로 이 의문에서 시작되었습니다. 최근 공개된 KFC 캐나다의 신규 캠페인은 AI가 제안한…

AI Tool 요즘 핫한 AI 툴 정보

한글 한 줄로 초고퀄 이미지 뚝딱! 직군별 리크래프트 활용법

MS 숨어있는 AI 기능 총 정리! – 메모장, 그림판, 사진편집기, 클립챔프, 코파일럿

상업적 사용 가능한 ‘어도비 파이어플라이 비디오’ 활용팁

AI가 만든 이미지를 피사체•배경•스타일별로 합성하고 싶다면? 위스크 이용법 알아보기

AI 시대의 보고서 작성법: 젠스파크 ‘심층 연구’로 10분 만에 심층 보고서 완성!

Reports Summary 주목할 만한 리포트와 논문들

AI는 왜 아직 ‘딸기 한 입’조차 제대로 못 먹일까? 로봇이 배우지 못하는 것과 그 이유

What AIs are not learning (and why) 현재 AI, 사람 돕는 일에는 턱없이 부족하다 로봇과 인공지능(AI)의 진보는 가시적인 기술적 성과를 내고 있지만, 정작 인간을 직접 돕는 서비스 분야에선 여전히 갈 길이 멀다. 의료 지원, 가정 간병, 일상 청소 등 인간 중심의 복잡한 서비스 작업을 수행하기엔 현재의 AI는 충분한 지능이나 경험…

MIT 연구팀 “AI는 가치관 없다”… 충격적인 실험 결과

Randomness, Not Representation: The Unreliability of Evaluating Cultural Alignment in LLMs 기존 평가 방식, AI의 ‘문화 정렬’을 왜곡할 수 있다 대형 언어 모델(LLM)의 문화적 정렬(cultural alignment)을 평가하기 위한 기존 방식이 신뢰할 수 없다는 연구 결과가 발표됐다. MIT CSAIL 연구팀은 논문에서 현재 주류로 사용되고 있는 설문 기반 평가 방식이 세 가지…

美 AI 전문가와 일반인의 생각 차이 극명? 일반인 ‘긍정적 영향’ 답변 17%에 그쳐…

How the U.S. Public and AI Experts View Artificial Intelligence 일반 대중보다 3배 더 낙관적인 AI 전문가들, 56% vs 17% 긍정적 영향 전망 인공지능(AI)이 더 이상 공상과학 소설 속 이야기가 아닌 시대, 전문가와 일반 대중 사이에 AI에 대한 인식 차이가 뚜렷하게 나타나고 있다. 퓨 리서치 센터(Pew Research Center)의 보고서에 따르면,…