챗GPT∙제미나이, 일반 AI에게도 보드게임 졌다?

아일랜드 더블린 대학교(University College Dublin)와 스위스 생갈렌 대학교(University of St.Gallen) 연구팀이 전통적인 AI 프로그래밍 도구에 챗GPT같은 대규모 언어 모델(LLM)을 통합하는 실험을 진행했다. 통합 자체는 예상보다 쉬웠지만, 효과적인 프롬프트를 설계하는 것은 여전히 어려운 과제로 남았다. 연구팀은 여행 계획, OX게임, 블록 쌓기 등 세 가지 실험을 통해 이 통합 방식의 가능성과 한계를 동시에 발견했다.

LLM 통합 도구 개발과 세 가지 실험

연구팀은 ASTRA라는 AI 개발 도구에 챗GPT를 연결하는 프로그램을 만들었다. 이름은 ‘astra-langchain4j’이고, 오픈AI의 챗GPT와 구글 제미나이 두 가지를 모두 사용할 수 있다. 특히 ‘빌리프RAG(BeliefRAG)’라는 기능이 있는데, 이는 AI가 이미 알고 있는 정보를 자동으로 찾아서 질문할 때 함께 넣어주는 역할을 한다.

연구팀은 이 프로그램이 제대로 작동하는지 세 가지 실험으로 확인했다.

첫 번째는 여행 계획 만들기다. 4명의 AI가 각자 다른 역할을 맡았다. 여행 일정 짜는 AI, 현지 정보 알려주는 AI, 언어 조언하는 AI, 마지막으로 정리하는 AI가 차례로 이야기하며 완성된 여행 계획을 만들었다.

두 번째는 OX게임(틱택토, Tic-Tac-Toe)이다. 먼저 가장 단순한 AI를 만들었다. 이 AI는 그냥 빈 칸을 순서대로 채우기만 한다. 그 다음 챗GPT를 활용한 여러 종류의 게임 AI를 만들어서 누가 더 잘하는지 비교했다.

세 번째는 블록 쌓기 게임이다. AI에게 “지금 블록들이 이렇게 놓여있고, 이런 모양의 탑을 만들고 싶은데 어떤 순서로 움직이면 될까?”라고 물어보는 방식이다.

OX게임 실험에서 드러난 일관성 문제

OX게임 실험에서 기본 LLM 플레이어는 선형 플레이어(고도의 전략이나 수 싸움을 하지 않는 플레이어, OX게임의 AI)에게 지속적으로 패배했다. LLM은 패배나 승리 위치를 감지하지 못했고, 때로는 이미 플레이된 위치를 추천하기도 했다. 연구팀은 이것이 사용된 프롬프트의 결과일 수 있다고 인정하면서도, 이 결과가 LLM의 보드 게임 플레이 능력에 대한 다른 연구 결과와 일치한다고 밝혔다.

연구팀은 앤트로픽의 평가자-최적화자 워크플로우를 적용한 버전도 시도했지만, 성능 개선이 없었다. 마지막으로 시도한 방어적 플레이어는 먼저 현재 상황을 판단한 후 다른 프롬프트를 사용하는 방식이었다. 이 방식은 한때 일관되게 승리했지만, 다음 날 같은 코드를 재실행했을 때 다시 패배하기 시작했다. 블록 쌓기 실험에서도 LLM은 특정 타워 구성만 성공했고, 다른 구성 요청에는 유사한 계획을 반환하며 실패했다.

“프롬프팅은 암흑 예술”: 연구가 발견한 핵심 교훈

연구팀은 실험을 통해 중요한 발견들을 정리했다.

첫째, 챗GPT 같은 LLM을 AI 프로그램에 연결하는 것은 생각보다 쉬웠다. 이미 나와 있는 도구를 쓰면 몇 줄의 코드만으로 가능했다. 둘째, 여러 AI가 협력하는 시스템도 기존 기술로 충분히 만들 수 있었다. 여행 계획 예제처럼 여러 AI가 차례로 의견을 주고받는 방식을 기존 방법으로 구현할 수 있었다.

셋째, 이 실험들에서 LLM은 상황을 보고 판단하는 능력이 부족했다. OX게임에서 “지금 이기고 있는지, 질 위험이 있는지”를 제대로 파악하지 못했고, 블록 쌓기에서도 “지금 어떤 블록을 움직여야 하는지” 결정하지 못했다.

넷째, LLM은 여러 단계를 거쳐 생각해야 하는 문제에 약했다. 제한된 실험이지만 복잡한 문제를 풀 때 어려움을 보였다.

마지막으로 가장 어려웠던 것은 LLM에게 “어떻게 질문할 것인가”였다. 효과적인 질문을 만드는 것이 쉽지 않았고, 질문을 조금만 바꿔도 답변이 완전히 달라졌다. 마치 같은 사람에게 물어봐도 질문 방식에 따라 전혀 다른 답을 듣는 것과 비슷했다.

시스템 설계와 프롬프트 엔지니어링의 중요성

이번 연구는 챗GPT 같은 AI를 기존 AI 개발 도구에 연결하는 것이 가능하다는 것을 확인했다. 하지만 동시에 두 가지 문제점도 발견했다. 첫째는 AI의 답변이 매번 달라지는 일관성 문제고, 둘째는 AI에게 어떻게 질문할지 정하는 것이 매우 어렵다는 점이다. 최근 애플 연구팀도 ‘하노이의 탑’이라는 퍼즐로 비슷한 실험을 했는데 같은 한계를 발견했다.

중요한 점은 이번 연구가 “챗GPT가 전반적으로 능력이 없다”를 증명한 게 아니라는 것이다. 이 연구는 “이런 방식으로 연결했을 때” 어떤 결과가 나오는지 본 것이다. 실험에서 챗GPT는 매번 새로 호출되었고, 게임 정보도 데이터 형식에서 일반 문장으로 바꿨다가 다시 데이터로 바꾸는 과정을 거쳤다. 그러니까 결과는 챗GPT 자체의 문제라기보다는, 이런 연결 방식의 한계일 수 있다.

앞으로는 어떤 연구가 필요할까? 전통적인 논리 계산 방식과 챗GPT의 언어 능력을 함께 쓰는 방법, 그리고 AI에게 질문하는 기술을 체계적으로 연구하는 것이 필요해 보인다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 에이전틱 AI란 무엇이며, 전통적인 에이전트 프로그래밍과 어떻게 다른가요?

에이전틱 AI는 대규모 언어 모델을 활용하여 목표 지향적 에이전트를 구현하는 접근법입니다. 전통적인 에이전트 프로그래밍은 미리 정의된 규칙과 논리로 작동하는 반면, 에이전틱 AI는 자연어 이해와 생성 능력을 활용합니다.

Q2. 이번 연구에서 LLM 기반 플레이어가 OX게임에서 어려움을 겪은 이유는 무엇인가요?

연구팀은 프롬프트 설계가 결과에 큰 영향을 미쳤다고 밝혔습니다. 또한 시스템 구조상 LLM이 매 턴마다 독립적으로 호출되어 지속적인 상태 추적이 어려웠고, 게임 상태가 JSON에서 자연어로 변환되는 과정에서 정보 손실이 있을 수 있습니다.

Q3. 빌리프RAG는 무엇이며 어떻게 작동하나요?

빌리프RAG(BeliefRAG)는 에이전트가 이미 알고 있는 정보를 자동으로 검색하여 프롬프트에 포함시키는 메커니즘입니다. 예를 들어 에이전트가 여러 음식 정보를 저장하고 있다면, “이 중 과일은 무엇인가?”라는 질문에 자동으로 관련 정보를 추출하여 LLM에 전달합니다.

기사에 인용된 논문 원문은 arXiv에서 확인 가능하다.

논문명: astra-langchain4j: Experiences Combining LLMs and Agent Programming

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.