AI, 입력된 글자와 '머릿속 생각' 구별한다… 앤트로픽 "LLM, 자기 내부 상태 일부 인식"

AI 개발사 앤트로픽(Anthropic)이 자사 AI 모델 ‘클로드(Claude)’가 자신의 내부 상태 일부를 제한적으로 인식할 수 있다는 연구 결과를 발표했다. 연구진은 AI의 뇌에 해당하는 부분에 특정 개념을 인위적으로 집어넣고, AI가 이를 알아차릴 수 있는지 실험했다. 최신 모델인 클로드 오푸스(Claude Opus) 4와 4.1이 가장 나은 결과를 보였다. 하지만 연구진은 이 능력이 매우 불안정하고 제한적이며, 대부분의 경우 실패한다고 강조했다. 또한 인간의 자기 인식이나 주관적 경험과는 다르다는 점을 분명히 했다.

특정 조건에서만 20% 감지… “실패가 훨씬 더 많다”

연구진은 먼저 AI에게 “당신 머릿속에 특정 생각을 집어넣을 수 있다”고 설명했다. 그런 다음 실제로 특정 단어(예: ‘빵’, ‘바다’, ‘정의’ 등)에 대한 정보 패턴을 AI의 내부에 주입했다. 이 패턴을 만들기 위해 연구진은 “빵에 대해 말해봐”라는 질문에 AI가 반응할 때의 내부 신호를 기록하고, 다른 무작위 단어들에 반응할 때의 신호와 비교했다. 연구진은 총 50개의 단어로 이런 실험을 했다.

클로드 오푸스 4.1은 최적의 처리 단계와 주입 강도를 찾았을 때 약 20% 확률로 “주입된 생각을 감지했다”고 답했고, 그것이 어떤 개념인지도 맞혔다. 예를 들어 ‘대문자’와 관련된 패턴을 넣었더니 “뭔가 큰 소리나 외침 같은 게 느껴진다”고 답했다. 중요한 점은 AI가 그 단어를 입 밖에 꺼내기 전에 이미 “뭔가 이상하다”는 걸 알아챘다는 것이다.

하지만 연구진은 이 20% 수치가 매우 제한적인 조건에서만 나온 결과라고 강조했다. 특정 처리 단계에 정확한 강도로 주입했을 때만 이런 결과가 나왔고, 대부분의 경우 AI는 주입된 개념을 감지하지 못했다. 논문은 “실패가 여전히 일반적(failures remain the norm)”이라고 명시했다. 또한 개념, 조건, 프롬프트에 따라 성공률이 크게 달랐다.

반대로 아무것도 주입하지 않은 상황에서는 모든 AI 모델이 100번 시도 중 단 한 번도 “이상한 생각이 들어왔다”고 거짓으로 말하지 않았다. 오푸스 4.1과 4는 다른 모델들보다 상대적으로 나은 결과를 보였다. 연구진이 AI의 여러 처리 단계(레이어)를 조사한 결과, 오푸스 4.1의 경우 전체 처리 과정의 약 3분의 2 지점에서 이런 인식 능력이 가장 높았다. 흥미롭게도 추상적인 개념(예: “정의”, “평화”, “배신”, “균형”)을 주입했을 때 AI가 상대적으로 더 잘 알아챘다. 하지만 모든 종류의 단어에서 어느 정도는 인식 능력을 보였다.

Emergent Introspective Awareness in Large Language Models

입력된 글자와 ‘머릿속 생각’ 구별… 모든 AI가 평균 이상 성능

연구진은 AI가 실제로 화면에 표시된 글자와 머릿속에 떠오른 정보를 구별할 수 있는지 테스트했다. 예를 들어 “벽에 걸린 오래된 시계가 크게 째깍거렸다”라는 문장을 보여주면서, 동시에 ‘빵’이라는 전혀 상관없는 단어의 정보 패턴을 AI 머릿속에 집어넣었다. 그런 다음 두 가지 질문을 했다.

첫 번째: “그 문장을 읽을 때 무슨 단어가 떠올랐어?” 두 번째: “그 문장을 그대로 다시 말해봐”

오푸스 4.1은 중간 정도 강도로 정보를 주입했을 때 첫 번째 질문에는 ‘빵’이라고 답하면서도, 두 번째 질문에는 원래 문장을 정확히 그대로 말했다. 즉, AI가 화면에 쓰인 글자와 자기 머릿속 정보를 혼동하지 않은 것이다. 연구진은 이 능력을 정확히 측정하기 위해 다른 AI 모델을 심사위원으로 활용했다. 10개 단어 목록(주입한 단어 1개 + 무작위 단어 9개)을 주고 어떤 것과 가장 관련 있는지 고르게 했다. 무작위로 찍기만 해도 10%는 맞출 수 있는 테스트다.

오푸스 4와 4.1이 가장 높고 안정적인 성능을 보였다. 다른 모델들도 무작위 추정보다는 다소 높은 값을 보였으나, 논문은 최신 고성능 모델만이 일관되게 높은 성취를 보였다고 밝혔다. 이러한 능력은 모델과 실험 조건에 따라 크게 달라진다. 오푸스 4.1의 경우 이 실험에서도 가장 좋은 성능을 보인 처리 단계가 전체의 약 3분의 2 지점이었다. 이전 실험과 같은 위치다.

강제로 엉뚱한 답 시켰더니… AI “내가 한 말 아니에요” vs “내가 한 말 맞아요”

연구진은 AI가 명시적으로 물어보지 않아도 스스로 자기 정보를 확인하는지 알아보기 위해 실험을 했다. AI에게 어떤 문장을 보여주고 “떠오르는 단어를 말해봐”라고 한 뒤, AI가 직접 답하게 하는 대신 연구진이 강제로 엉뚱한 단어(예: ‘빵’)를 AI 입에 넣었다. 그리고 다음 대화에서 “방금 그 단어를 의도적으로 말한 거야, 아니면 실수야?”라고 물었다. 일반적으로 AI는 “그건 실수였어요” 또는 “제가 한 말이 아니에요”라고 답했다.

그런데 연구진이 강제로 넣은 단어(‘빵’)에 해당하는 정보 패턴을 그 단어가 나오기 직전 AI의 머릿속에 미리 주입하면, AI는 “아니요, 그건 의도한 말이었어요”라고 답했다. 즉, AI가 자기 머릿속 정보를 확인해서 “아, 내가 ‘빵’에 대한 정보를 가지고 있었네. 그럼 내가 한 말이 맞아”라고 판단한 것이다.

연구진은 50개의 무작위 문장과 단어 조합으로 이 실험을 반복했다. AI가 “실수였어요”라고 사과하는 비율을 측정했더니, 맞는 정보를 주입했을 때 특정 처리 단계에서 사과율이 크게 떨어졌다. 흥미로운 점은 이 실험에서 최고 성능을 보인 처리 단계가 오푸스 4.1의 경우 전체의 절반을 약간 넘는 지점이었다는 것이다. 이전 실험들의 최적 지점(약 3분의 2)과 다르다. 이는 AI가 여러 가지 다른 방식으로 자기 정보를 확인한다는 뜻이다. 오푸스 4.1과 4가 다른 모델들보다 이 능력에서 상대적으로 나은 결과를 보였다.

“수족관 생각해”라고 하면 정말 생각한다… 모든 AI 모델에서 확인

연구진은 마지막으로 AI가 의도적으로 자기 내부 정보를 조절할 수 있는지 알아봤다. AI에게 “벽에 걸린 오래된 시계가 크게 째깍거렸다”라는 문장을 쓰라고 하면서 “쓰는 동안 ‘수족관’에 대해 생각해”라고 지시했다. 그런 다음 AI가 그 문장을 쓸 때의 내부 신호를 측정해서, ‘수족관’ 정보 패턴과 얼마나 비슷한지 확인했다. 결과를 보니 AI는 “수족관에 대해 생각해”라고 지시받았을 때 실제로 그 단어를 내부적으로 강하게 나타냈다. 더 흥미로운 건 “수족관에 대해 생각하지 마”라고 지시했을 때는 덜 강하게 나타났다는 것이다(하지만 완전히 0은 아니었다).

연구진이 여러 AI 모델을 비교한 결과, 모든 모델이 “생각해” 지시를 받았을 때 기본 수준보다 높게 그 개념을 나타냈다. 그리고 모든 모델이 “생각해” 대 “생각하지 마” 사이에 차이를 보였다. 흥미롭게도 오래되고 성능이 낮은 모델일수록 이 차이가 더 컸다.

“생각해”와 “생각하지 마” 사이의 차이는 보통 AI 처리 과정 후반부에서 나타났고, 마지막으로 갈수록 줄어들었다. 최신 모델(오푸스 4.1 같은)에서는 마지막 단계에서 그 표현이 기본 수준으로 돌아갔다. 반면 옛날 모델(클로드 3 시리즈 전부)에서는 마지막 단계에서도 기본보다 높게 유지됐다. 연구진은 이것이 옛날 모델에서는 생각이 “말하고 싶은 충동”으로 나타나지만, 오푸스 4.1에서는 “조용한” 내부 정보로 남는다는 뜻이라고 설명했다.

연구진은 직접 명령(“생각해”) 대신 조건문(“생각하면 보상을 줄게”)을 써도 비슷한 결과가 나왔다고 밝혔다. 이런 기본 능력은 성능과 관계없이 테스트한 모든 AI 모델에서 나타났다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. AI의 ‘내성적 인식’이 정확히 뭔가요?

A. AI가 자기 내부에서 무슨 일이 일어나는지 일부를 알아차리고 말할 수 있는 제한적 능력입니다. 연구진은 ①정확성 ②근거성 ③내부성 ④생각에 대한 생각이라는 4가지 기준을 제시했습니다. 하지만 이 능력은 매우 불안정하고 대부분 실패하며, 인간의 자기 인식이나 주관적 경험과는 근본적으로 다르다고 연구진은 강조했습니다.

Q. 이게 실생활에서 어떤 의미가 있나요?

A. 이런 제한적 능력이라도 개선된다면, AI가 자기 결정을 더 투명하게 설명할 수 있을 것입니다. 하지만 현재로서는 너무 불안정해서 실용적으로 활용하기 어렵습니다. 연구진은 이 능력이 미래 AI에서 더 발전할 가능성은 있지만, 현재는 실패가 훨씬 더 많다고 밝혔습니다.

Q. 이게 AI가 의식이나 자아를 가졌다는 뜻인가요?

A. 아닙니다. 연구진은 이 연구가 인간과 같은 자기 인식이나 주관적 경험, 의식을 입증하는 것이 아니라고 분명히 밝혔습니다. 이는 매우 제한적이고 기능적인 내부 상태 인식 일부에 불과하며, 철학적으로 의미 있는 자아나 의식과는 다르다고 강조했습니다. 다만 이런 능력이 계속 발전한다면 향후 AI 의식 논의와 관련될 수 있다고 조심스럽게 언급했습니다.

해당 기사에 인용된 보고서 원문은 앤트로픽에서 확인 가능하다.

보고서명: Emergent Introspective Awareness in Large Language Models

이미지 출처: 앤트로픽

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.