• Home
  • AI Report
  • “AI도 협업이 답” 클로드, 멀티 에이전트로 단일 에이전트 대비 90% 성능 향상

“AI도 협업이 답” 클로드, 멀티 에이전트로 단일 에이전트 대비 90% 성능 향상

How we built our multi-agent research system
이미지 출처: 앤트로픽

How we built our multi-agent research system

앤트로픽이 공개한 클로드(Claude)의 리서치 기능은 여러 AI 에이전트가 협력하여 복잡한 주제를 탐구하는 멀티 에이전트 시스템을 기반으로 한다. 내부 평가 결과, 클로드 오푸스 4(Claude Opus 4)를 리드 에이전트로, 클로드 소네트 4(Claude Sonnet 4)를 서브 에이전트로 활용한 멀티 에이전트 시스템이 단일 에이전트 클로드 오푸스 4보다 90.2% 향상된 성능을 보였다.

토큰 사용량 80% 증가로 단일 에이전트 대비 90.2% 성능 향상 달성

연구 작업은 본질적으로 예측하기 어려운 오픈엔드 문제로, 사전에 고정된 경로를 하드코딩할 수 없다. 사람이 연구를 수행할 때와 마찬가지로 AI 에이전트도 조사 과정에서 발견한 내용을 바탕으로 지속적으로 접근 방식을 업데이트하고 새로운 단서를 따라가야 한다. 이러한 예측 불가능성이 AI 에이전트를 연구 작업에 특히 적합하게 만든다.

앤트로픽의 BrowseComp 평가 분석에 따르면, 토큰 사용량 자체가 성능 분산의 80%를 설명한다. 나머지 20%는 도구 호출 횟수와 모델 선택이 차지한다. 멀티 에이전트 아키텍처는 별도의 컨텍스트 윈도우를 가진 에이전트들 간에 작업을 분산시켜 병렬 추론을 위한 더 많은 용량을 추가함으로써 토큰 사용량을 효과적으로 확장한다.


20만 토큰 컨텍스트 관리와 인용 에이전트로 완성된 시스템

클로드의 리서치 시스템은 리드 에이전트가 프로세스를 조정하면서 병렬로 작동하는 전문 서브 에이전트들에게 작업을 위임하는 오케스트레이터-워커 패턴을 사용한다. 사용자가 쿼리를 제출하면 리드 에이전트가 이를 분석하고 전략을 개발한 후, 서로 다른 측면을 동시에 탐색할 서브 에이전트들을 생성한다.

전통적인 검색 증강 생성(RAG) 방식이 정적 검색을 사용하는 것과 달리, 앤트로픽의 아키텍처는 동적으로 관련 정보를 찾고 새로운 발견에 적응하며 결과를 분석하여 고품질 답변을 공식화하는 다단계 검색을 사용한다. 서브 에이전트들은 각자의 컨텍스트 윈도우에서 작동하며 질문의 다양한 측면을 동시에 탐색한 후 가장 중요한 토큰을 리드 연구 에이전트에게 압축하여 전달한다.

시스템은 컨텍스트 윈도우가 20만 토큰을 초과할 경우 잘려 나가는 문제를 해결하기 위해 메모리에 계획을 저장하여 컨텍스트를 유지한다. 충분한 정보가 수집되면 인용 에이전트(CitationAgent)가 문서와 연구 보고서를 처리하여 모든 주장이 적절한 출처에 기인하도록 한다.

How we built our multi-agent research system


50개 서브 에이전트 오류에서 효율적 협업까지, 프롬프트 엔지니어링의 힘

멀티 에이전트 시스템의 핵심 과제는 에이전트 간 조정 복잡성의 급속한 증가다. 초기 에이전트들은 단순한 쿼리에 50개의 서브 에이전트를 생성하거나, 존재하지 않는 소스를 끝없이 찾아 헤매는 오류를 범했다. 앤트로픽은 프롬프트 엔지니어링을 통해 이러한 행동을 개선했다.

효과적인 프롬프팅을 위해서는 에이전트들이 어떻게 작동하는지 이해해야 한다. 앤트로픽 팀은 콘솔을 사용하여 시스템의 정확한 프롬프트와 도구로 시뮬레이션을 구축하고 에이전트들이 단계별로 작업하는 모습을 관찰했다. 이를 통해 에이전트들이 이미 충분한 결과를 얻었음에도 계속 작업하거나, 지나치게 장황한 검색 쿼리를 사용하는 실패 모드를 즉시 발견할 수 있었다.

오케스트레이터에게 위임 방법을 가르치는 것도 중요했다. 각 서브 에이전트는 목표, 출력 형식, 사용할 도구와 소스에 대한 지침, 명확한 작업 경계가 필요했다. 상세한 작업 설명 없이는 에이전트들이 작업을 중복하거나 공백을 남기거나 필요한 정보를 찾지 못했다. 쿼리 복잡성에 따른 노력 규모 조정도 중요한 요소였다.

3-5개 병렬 에이전트와 확장된 사고 모드로 작업 시간 40% 단축

앤트로픽은 두 가지 병렬화 방식을 도입했다. 첫째, 리드 에이전트가 서브 에이전트들을 순차적이 아닌 병렬로 3-5개씩 생성한다. 둘째, 서브 에이전트들이 3개 이상의 도구를 병렬로 사용한다. 이러한 변경으로 복잡한 쿼리의 연구 시간을 최대 90%까지 단축했다.

확장된 사고 모드(Extended thinking mode)는 클로드가 가시적인 사고 과정에서 추가 토큰을 출력하도록 하여 제어 가능한 스크래치패드 역할을 한다. 리드 에이전트는 사고를 통해 접근 방식을 계획하고, 어떤 도구가 작업에 적합한지 평가하며, 쿼리 복잡성과 서브 에이전트 수를 결정하고, 각 서브 에이전트의 역할을 정의한다. 테스트 결과 확장된 사고가 지시 따르기, 추론, 효율성을 향상시켰다.

클로드 4 모델들은 뛰어난 프롬프트 엔지니어가 될 수 있다. 프롬프트와 실패 모드가 주어졌을 때, 에이전트가 실패하는 이유를 진단하고 개선사항을 제안할 수 있다. 앤트로픽은 결함이 있는 MCP 도구가 주어졌을 때 도구를 사용해 보고 실패를 피하기 위해 도구 설명을 다시 작성하는 도구 테스트 에이전트를 만들었다. 이 과정으로 도구 사용성이 개선되어 향후 에이전트들의 작업 완료 시간이 40% 감소했다.

FAQ

Q: 멀티 에이전트 시스템이 일반 AI보다 어떤 점에서 더 뛰어난가요?

A: 멀티 에이전트 시스템은 여러 AI가 동시에 다른 작업을 수행하여 복잡한 연구 작업을 더 효율적으로 처리합니다. 클로드의 경우 단일 에이전트보다 90% 향상된 성능을 보이며, 특히 여러 방향을 동시에 탐색해야 하는 광범위한 질문에서 뛰어난 성능을 발휘합니다.

Q: 멀티 에이전트 시스템 사용 시 비용이 많이 드나요?

A: 네, 멀티 에이전트 시스템은 일반 채팅보다 약 15배 많은 토큰을 사용합니다. 하지만 작업의 가치가 증가된 성능 비용을 정당화할 수 있는 고가치 작업에서는 경제적으로 유용합니다.

Q: 어떤 종류의 작업에 멀티 에이전트 시스템이 가장 적합한가요?

A: 복잡한 연구, 정보 수집, 여러 소스를 동시에 검색해야 하는 작업에 가장 적합합니다. 예를 들어 S&P 500 IT 기업들의 이사회 구성원 조사나 특정 산업의 시장 분석 등에서 뛰어난 성능을 보입니다.

해당 기사에 인용된 보고서 원문은 앤트로픽에서 확인 가능하다.

이미지 출처: 앤트로픽

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




“AI도 협업이 답” 클로드, 멀티 에이전트로 단일 에이전트 대비 90% 성능 향상 – AI 매터스 l AI Matters