한 질문에 AI 4개가 토론한다…xAI, '그록 4.20' 공개

xAI가 단일 모델 방식을 탈피한 새로운 인공지능 시스템 ‘그록 4.20(Grok 4.20)’을 출시했다. 이 시스템은 하나의 AI가 아닌 네 개의 전문화된 에이전트(Agent)가 동시에 작동하며 서로 토론한 뒤 최종 답변을 내놓는 구조다.

어썸에이전츠(Awesome Agents)에 따르면, 그록 4.20은 지난 2월 17일 베타 버전으로 공개됐다. 시스템은 그록(Grok), 하퍼(Harper), 벤자민(Benjamin), 루카스(Lucas)라는 이름의 네 에이전트로 구성되며, 이들은 병렬로 사고하고 실시간으로 의견을 주고받은 뒤 하나의 통합된 답변을 생성한다. 주요 AI 기업이 멀티 에이전트 아키텍처(Multi-Agent Architecture)를 소비자 제품으로 출시한 것은 이번이 처음이다.

각 에이전트는 소규모 연구팀을 모델로 설계됐다. 그록은 팀장 역할로, 사용자 질문을 세부 과제로 분해하고 각 에이전트에 업무를 배분한 뒤 최종 답변을 조율한다. 하퍼는 웹 검색과 X(구 트위터) 게시물, 문서 등을 통해 정보를 수집하는 리서처다. 벤자민은 단계별 논리 추론, 수치 계산, 코드 실행, 수학적 증명을 담당하는 검증자다. 루카스는 비관습적 시각에서 문제를 분해하고 창의적 해결책을 제시하는 역할을 맡는다.

사용자가 질문을 입력하면 네 에이전트가 동시에 활성화되어 각자의 관점에서 문제에 접근한다. 이들은 단순히 병렬로 실행되는 데 그치지 않고, 서로의 중간 결과물을 토대로 논의를 거친 뒤 그록이 최종 답변을 완성한다. 사용자는 새롭게 도입된 실시간 사고 인터페이스(Live Thinking Interface)를 통해 각 에이전트의 진행 상황과 메모를 확인할 수 있다. 일반 사용자는 쿼리당 4개의 에이전트를 사용할 수 있으며, 헤비 유저는 동일한 프롬프트에 최대 16개까지 확장 가능하다.

벤치마크(Benchmark) 결과도 주목할 만하다. xAI는 그록 4.20이 아레나 엘로(Arena ELO) 점수 1505~1535를 기록했다고 밝혔다. 이는 1500점 장벽을 처음 돌파한 제미나이(Gemini) 3 프로와 비슷한 수준이며, 앤트로픽(Anthropic)의 클로드 오퍼스(Claude Opus) 4.5와 GPT-5를 웃도는 수치다. 포캐스트벤치(ForecastBench)에서는 GPT-5, 제미나이 3 프로, 클로드 오퍼스 4.5를 제치고 전체 AI 모델 중 2위를 기록했다. xAI의 알파 아레나(Alpha Arena) 주식 거래 시뮬레이션에서는 경쟁 모델들이 손실을 낸 반면 +34.59%의 수익률을 냈다.

xAI 측은 멀티 에이전트 구조 덕분에 환각(Hallucination) 현상이 65% 감소했다고 밝혔다. 기존 약 12%였던 오류율이 4.2%까지 낮아졌다는 설명이다. 하퍼가 정보를 수집하고, 벤자민이 이를 검증하며, 그록이 최종 확인하는 내부 동료 검토(Peer Review) 구조가 오류를 줄이는 역할을 한다. 일론 머스크(Elon Musk)는 X를 통해 “개방형 공학 질문에 올바른 답을 내놓기 시작했다”며, 이를 점진적인 성능 향상이 아닌 질적 도약으로 평가했다.

이번 출시는 경쟁 구도에서도 의미심장하다. 그록 4.20이 공개된 날, 앤트로픽은 100만 토큰(Token) 컨텍스트 윈도우(Context Window)와 향상된 코딩 성능을 갖춘 클로드 소네트(Claude Sonnet) 4.6을 선보였다. 앤트로픽이 단일 모델의 한계를 극한까지 밀어붙이는 방향을 택한 반면, xAI는 여러 모델이 협력하는 시스템이 미래라는 아키텍처적 승부수를 던진 셈이다.

다만 과제도 있다. 네 개의 에이전트와 합성 레이어를 거치는 구조는 계산 부담을 가중시켜 응답 지연이 발생할 수 있다. 이용 요금도 슈퍼그록(SuperGrok) 구독권(월 30달러) 또는 X 프리미엄+(X Premium+) 멤버십이 필요하며, API 요금은 아직 공개되지 않았다. 에이전트 간 의견 충돌 시 그록이 어느 에이전트를 신뢰할지 판단해야 하는 메타 추론(Meta-Reasoning) 과정 자체가 단일 모델에는 없는 새로운 오류 원인이 될 수 있다는 지적도 나온다.

그록 4.20은 현재 grok.com과 iOS·안드로이드(Android) 앱에서 슈퍼그록 및 X 프리미엄+ 구독자를 대상으로 베타 서비스 중이며, API 접근을 포함한 전체 출시는 조만간 이뤄질 예정이다.

자세한 내용은 어썸에이전츠(Awesome Agents)에서 확인할 수 있다.

이미지 출처: 그록