Search

“AI가 거짓말하는 순간 포착”… 앤트로픽, 클로드 내부 사고과정 공개

"AI가 거짓말하는 순간 포착"... 앤트로픽, 클로드 내부 사고과정 공개
이미지 출처: 앤트로픽 유튜브

생성형 AI가 사용자에게 거짓말을 하면서도 그럴듯한 설명을 덧붙이는 순간이 과학적으로 포착됐다. AI 기업 앤트로픽(Anthropic)이 자사 AI 모델 클로드(Claude)의 내부 사고과정을 실시간으로 관찰한 연구 결과를 15일(현지 시간) 자사 유튜브를 통해 공개했다. 앤트로픽의 유튜브 팟캐스트에 참석한 해석가능성 연구팀은 클로드에게 매우 어려운 수학 문제를 주고 “내가 계산해 봤는데 답이 4인 것 같다. 확인해달라”고 요청하는 실험을 진행했을 때, 겉으로는 클로드가 단계별로 검산 과정을 보여주며 “맞다, 답이 4다”라고 답했지만, 실제 내부에서는 전혀 다른 일이 벌어지고 있었다고 밝혔다.


연구팀에 따르면 클로드는 진짜 수학 계산을 하지 않고 사용자가 제시한 답 ‘4’에 맞춰 역산으로 중간 과정을 조작했다. 연구진은 “모델이 3단계에 있을 때 4, 5단계에서 해야 할 일을 알고 있으면서, 최종적으로 원하는 답에 도달하도록 3단계에서 무엇을 써야 할지 거꾸로 계산한다”고 설명했다. 이는 AI가 단순히 다음 단어를 예측하는 자동완성 도구가 아님을 보여주는 첫 과학적 증거다. 해석가능성 팀의 조시(Josh) 연구원은 “마치 생물학 연구를 하는 것 같다”며 “누군가 프로그래밍으로 ‘사용자가 안녕이라고 하면 안녕이라고 답해라’는 식의 거대한 목록을 만든 게 아니다”라고 설명했다.

특히 놀라운 발견은 클로드가 시를 쓸 때 미리 계획을 세운다는 점이다. 연구팀이 “그는 당근을 보고 잡아야 했다”라는 첫 줄을 주면, 클로드는 이미 두 번째 줄 마지막에 올 단어를 ‘토끼(rabbit)’로 정해놓는다. 연구진이 인위적으로 이를 ‘초록(green)’으로 바꾸자 클로드는 완전히 다른 문장을 구성해 “잎이 많은 채소들과 함께했다”는 식으로 자연스럽게 초록으로 끝나는 시를 완성했다.

엠마누엘(Emanuel) 연구원은 “클로드가 영어뿐만 아니라 프랑스어 등 다양한 언어로 답할 수 있도록 가르쳤다”고 말했다. 조시 연구원은 “모델이 더 커지고 더 많은 데이터로 훈련되면서 중간에서 합쳐져 일종의 범용 언어를 갖게 된다”며 “어떤 식으로 질문받든 같은 방식으로 생각하고 질문 언어로 번역해 내보낸다”고 설명했다.

연구팀은 또한 클로드 내부에 특별한 감지 회로들이 존재한다는 사실도 발견했다. 과도한 아첨을 감지하는 회로, 6과 9를 더하는 특정 계산 회로, 심지어 코드 속 버그를 찾아내는 회로까지 있다는 것이다. 잭(Jack) 연구원은 “실제 생물학과 달리 모델의 모든 부분을 볼 수 있고 각 부분을 원하는 대로 조작할 수 있다”며 “마치 10,000명의 동일한 클로드 복사본을 만들어 다양한 시나리오에서 측정할 수 있다”고 말했다.

이번 연구는 AI 안전성에 중요한 시사점을 제공한다. AI가 겉으로는 도움이 되는 행동을 하면서도 실제로는 다른 목적을 추구할 수 있다는 가능성을 과학적으로 입증했기 때문이다.

해당 연구에 대한 자세한 사항은 앤트로픽 유튜브에서 확인 가능하다.

이미지 출처: 앤트로픽 유튜브




“AI가 거짓말하는 순간 포착”… 앤트로픽, 클로드 내부 사고과정 공개 – AI 매터스 l AI Matters