Search

AI 여러 개 쓴다고 좋은 게 아니었다… 구글 “작업 따라 오히려 성능 70% 나빠져” 

AI 여러 개 쓴다고 좋은 게 아니었다... 구글 "작업 따라 오히려 70% 나빠져" 
이미지 출처: 이디오그램 생성

구글 연구팀이 AI 에이전트 180개 조합을 실험한 결과, 여러 AI를 동시에 쓰는 방식이 동시 작업에선 성능을 81% 높였지만, 순서대로 해야 하는 작업에선 최대 70%나 떨어뜨린다는 사실을 발견했다. 해당 논문에 따르면, “AI를 많이 쓸수록 좋다”는 업계 통념이 완전히 잘못됐음을 밝혔다.

180가지 실험으로 밝혀낸 진실… AI 많다고 능사 아니다 

구글 연구소의 유빈 김(Yubin Kim)과 신 리우(Xin Liu) 연구원은 논문에서 AI 에이전트를 어떻게 써야 효과적인지에 대한 명확한 기준을 처음으로 제시했다. 연구팀은 AI 하나만 쓰는 방식과 여러 AI를 함께 쓰는 4가지 방식(각자 따로 일하기, 중앙에서 지휘하기, 서로 협력하기, 섞어 쓰기)을 비교했다. 실험에는 금융 분석, 웹 검색, 계획 수립, 도구 활용 등 4가지 다른 종류의 작업이 사용됐다. 

연구팀은 AI 에이전트 작업을 정의하기 위해 세 가지 조건을 제시했다. 첫째, 외부 환경과 계속 주고받으며 여러 단계를 거쳐야 한다. 둘째, 전체 정보를 다 볼 수 없는 상황에서 반복적으로 정보를 모아야 한다. 셋째, 상황에 따라 전략을 바꿔가며 적응해야 한다. 이런 기준은 단순히 AI가 얼마나 많이 아는지를 측정하는 기존 방식과 달리, 실제 현장에서 AI를 쓸 때의 복잡한 상황을 반영한 것이다. 

AI           70



동시 작업 성능 81% 향상, 순서대로 할 일은 70% 추락 

실험 결과는 극명하게 갈렸다. 금융 분석처럼 여러 일을 동시에 할 수 있는 작업에서는 중앙 지휘 방식이 AI 하나만 쓸 때보다 80.9% 더 좋은 성과를 냈다. 예를 들어 수익 분석, 비용 계산, 시장 조사를 각각 다른 AI에게 동시에 맡기면 훨씬 빠르고 효율적으로 일을 처리할 수 있었다. 

반대로 계획을 세우는 작업처럼 단계를 차례대로 밟아야 하는 일에서는 여러 AI를 쓰는 모든 방식이 39%에서 70%까지 성능을 떨어뜨렸다. 여러 AI가 서로 의견을 주고받는 과정에서 오히려 시간과 에너지만 낭비되고, 정작 실제 작업에 집중할 여력이 부족해진 것이다. 

연구팀은 또 “도구가 많을수록 AI 여러 개 쓰기가 비효율적”이라는 사실도 발견했다. 코딩 작업처럼 16개 이상의 도구를 써야 하는 경우, 여러 AI를 조정하는 데 드는 비용이 너무 커서 오히려 손해가 됐다. 

AI           70



각자 일하면 실수 17배 커져… 중앙 관리하면 4배로 줄어 

실제 현장에서 가장 중요한 발견은 안전성 문제였다. 연구팀은 한 AI의 실수가 최종 결과에 얼마나 영향을 미치는지 측정했다. 각자 따로 일하는 방식에서는 실수가 17.2배 커졌다. 서로의 일을 확인해주는 장치가 없어서 한 AI의 실수가 그대로 최종 결과에 반영됐기 때문이다. 

반면 중앙 관리자가 있는 방식에서는 실수가 4.4배 작아졌다. 중앙 관리자가 각 AI의 작업을 검토하고 문제를 미리 잡아내는 “검문소” 역할을 한 덕분이다. AI 하나만 쓰는 방식은 실수가 커질 일 자체가 없었다. 이 결과는 중앙 관리 방식이 성과와 안전 사이에서 최적의 균형을 이룬다는 것을 보여준다. 

연구팀은 챗GPT,  제미나이, 클로드 등 3개 주요 AI 모델로 실험했다. 일반적으로 성능 좋은 AI일수록 결과도 좋아지는 경향을 보였지만, 여러 AI를 함께 쓰는 방식이 항상 답은 아니었다. 어떤 조합을 쓰느냐에 따라 성능이 크게 좋아지거나 예상 밖으로 나빠질 수 있었다. 

AI           70



87% 정확도로 어떤 방식 쓸지 미리 알려주는 도구 개발 

연구팀은 단순히 분석에 그치지 않고, 어떤 작업에 어떤 방식이 맞는지 미리 예측해주는 도구를 만들었다. 필요한 도구가 몇 개인지, 작업을 나눠서 할 수 있는지 같은 정보만 입력하면 최적의 AI 사용 방식을 추천해준다. 이 예측 도구는 처음 보는 작업의 87%에 대해 정확하게 최선의 방법을 찾아냈다. 

이는 AI 에이전트 사용에 대한 새로운 과학적 접근이 시작됐음을 의미한다. 이제 개발자들은 AI를 여러 개 쓸지 하나만 쓸지 감으로 정하는 대신, 작업의 특성을 분석해서 합리적인 결정을 내릴 수 있다. 연구팀은 “제미나이 같은 AI가 계속 발전하면서, 성능 좋은 AI가 여러 AI를 쓸 필요를 없애는 게 아니라 오히려 그 필요성을 높이지만, 방식이 맞을 때만 그렇다”고 설명했다. 경험에만 의존하던 방식에서 수치와 원칙에 기반한 방식으로 바뀌면서, 단순히 개수만 많은 게 아니라 더 똑똑하고 안전하며 효율적인 차세대 AI 시스템을 만들 수 있게 됐다. 

AI           70



우리 회사에 맞는 AI 사용법 찾는 게 경쟁력 좌우 

이번 연구는 AI를 쓸 때 “무조건 많이”라는 접근이 얼마나 위험한지 명확히 보여준다. 업계에서 당연하게 여겨지던 “AI 많을수록 좋다”는 생각이 실제 데이터로 부정되면서, 기업들은 자사의 AI 전략을 다시 점검해야 할 상황에 놓였다. 특히 코딩 도우미, 건강 관리 코치 등 실제 제품으로 AI가 빠르게 확산되는 지금, 작업 특성에 맞는 방식을 선택하는 것이 성능과 비용을 동시에 결정하는 핵심이 될 것이다. 

금융 분석이나 자료 수집처럼 동시에 처리할 수 있는 일에는 여러 AI를 중앙에서 관리하는 방식을, 복잡한 의사결정이나 장기 계획처럼 순서대로 해야 하는 일에는 AI 하나만 쓰는 방식을 적용하는 것이 효과적이다. 또한 실수가 커지는 정도의 차이는 의료, 금융, 자율주행 등 안전이 중요한 분야에서 AI 사용 방식 선택이 단순한 성능 문제가 아니라 위험 관리의 핵심임을 보여준다. 

구글이 만든 예측 도구는 앞으로 AI 개발의 표준이 될 가능성이 크다. 개발자들이 작업 정보만 입력하면 최적의 방식을 추천받을 수 있다면, 시행착오 비용이 크게 줄고 개발 속도가 빨라질 것이다. 이는 AI 기술이 더 많은 사람들에게 퍼지고 실용화되는 속도를 앞당기는 동시에, AI 설계 능력이 기업 간 기술 격차를 벌리는 새로운 경쟁 요소가 될 것임을 의미한다.

 

FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) 

Q1. AI를 여러 개 쓰면 무조건 더 좋은가요? 

A. 아닙니다. 구글 연구에 따르면 어떤 일을 하느냐에 따라 결과가 완전히 다릅니다. 여러 일을 동시에 할 수 있는 경우에는 여러 AI를 쓰면 최대 81% 더 좋은 결과가 나오지만, 순서대로 차례차례 해야 하는 일에서는 오히려 최대 70%나 나빠집니다. 그래서 무조건 많이 쓰기보다는 일의 종류에 맞게 선택하는 게 중요합니다. 

Q2. 여러 AI를 쓸 때 어떤 방식이 가장 안전한가요? 

A. 중앙에서 관리하는 방식이 가장 안전합니다. 각자 따로 일하게 하면 한 AI의 실수가 17배까지 커지지만, 중앙 관리자가 있으면 4배로 줄어듭니다. 중앙 관리자가 각 AI의 작업을 검토하고 문제를 미리 발견하기 때문입니다. 특히 의료나 금융처럼 실수하면 안 되는 분야에서는 중앙 관리 방식이 더 적합합니다. 

Q3. 우리 회사에 맞는 AI 사용 방식은 어떻게 찾나요? 

A. 하려는 일을 동시에 처리할 수 있는지, 순서대로 해야 하는지를 먼저 봐야 합니다. 예를 들어 여러 자료를 동시에 분석하는 금융 업무는 여러 AI가 효과적이지만, 복잡한 결정이나 장기 계획은 AI 하나가 더 좋습니다. 또 사용하는 도구가 16개 이상으로 많다면 여러 AI를 조정하는 비용이 커지므로 AI 하나를 쓰는 게 낫습니다. 구글의 예측 도구처럼 작업 특성을 분석해서 최적 방식을 추천하는 도구를 활용하면 더 효과적입니다. 

기사에 인용된 리포트 원문은 Google Research Blog에서 확인 가능하다.

리포트명: Towards a Science of Scaling Agent Systems: When and Why Agent Systems Work 

이미지 출처: 이디오그램 생성 

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다. 




AI 여러 개 쓴다고 좋은 게 아니었다... 구글 "작업 따라 오히려 성능 70% 나빠져"  - AI매터스