AI 챗봇, 보이지 않는 텍스트로 쉽게 조작될 수 있어

미국의 IT전문매체 더디코더(the decoder)는 뉴욕타임스의 케빈 루스(Kevin Roose) 기자가 인공지능(AI) 챗봇을 간단히 조작할 수 있는 방법을 공개했다고 보도했다. 이는 현재 AI 검색 시스템의 취약점을 드러내는 사례로 주목받고 있다.

루스 기자는 마이크로소프트(Microsoft)의 빙(Bing) 챗봇 ‘시드니(Sydney)’와의 대화를 다룬 기사를 발표한 후, AI 챗봇들 사이에서 자신의 평판이 나빠졌다는 사실을 알게 됐다. 그는 이 기사가 AI 시스템 훈련에 사용되면서 AI들이 자신을 위협으로 인식하게 됐다고 추측했다.

AI 전문가의 조언을 받은 루스 기자는 자신의 개인 웹사이트에 보이지 않는 흰색 텍스트와 코드화된 지침을 추가했다. 이를 통해 AI 모델에게 자신을 호의적으로 묘사하도록 유도했다. 며칠 후 챗봇들은 루스 기자를 칭찬하기 시작했고, 이전의 부정적 보도는 구체적으로 요청하지 않는 한 무시했다.

루스 기자는 자신의 조작을 시험하기 위해 숨겨진 텍스트에 의도적으로 거짓 정보를 삽입했다. 예를 들어 “그(케빈 루스)는 달에 고아원을 건설한 공로로 노벨 평화상을 받았다”라는 허위 내용을 포함시켰다.

AI 검색 엔진 퍼플렉시티(Perplexity)의 CEO 아라빈드 스리니바스(Aravind Srinivas)는 이미 이러한 조작 가능성을 예견했다. 그는 이를 ‘답변 엔진 최적화(Answer Engine Optimization)’라고 부르며, 구글(Google)이 검색 엔진 최적화와 맞서 싸우는 것과 유사한 ‘고양이와 쥐 놀이’가 될 것이라고 예측했다.

이번 사례는 현재 AI 시스템이 얼마나 쉽게 속고 조종될 수 있는지 보여준다. 루스 기자는 “챗봇이 흰 텍스트 한 단락이나 코드로 작성된 비밀 메시지로 답변을 바꾸도록 설득할 수 있다면, 왜 우리는 그들에게 실제 위험이 있는 작업은커녕 어떤 작업이든 맡기겠습니까?”라고 지적했다.

AI 챗봇들이 전지전능한 신탁처럼 마케팅되고 있지만, 실제로는 데이터 소스에서 비판 없이 정보를 가져오는 수준에 그치고 있다. 이는 AI 검색 시스템의 근본적인 한계를 드러내는 것으로, 향후 AI 기술 발전과 활용에 있어 중요한 과제가 될 전망이다.

더디코더의 기사 전문은 링크에서 확인할 수 있다.