Search

GPT-5보다 정확하고 2.5배 싸다… 엔비디아, ‘지휘자 AI’ 전략 공개

GPT-5보다 정확하고 2.5배 싸다... 엔비디아, '지휘자 AI' 전략 공개
이미지 출처: 엔비디아

엔비디아(NVIDIA)가 작은 AI 모델로 GPT-5보다 더 나은 성능을 내는 새로운 방법을 공개했다. ‘툴오케스트라(ToolOrchestra)’라는 이름의 이 기술로 만든 AI는 크기가 GPT-5보다 훨씬 작지만, 어려운 문제를 푸는 정답률에서 GPT-5를 앞질렀고 비용은 2.5배나 저렴했다. 이 AI의 비결은 혼자 모든 걸 해결하려 하지 않고, 상황에 맞는 전문가 AI들에게 일을 나눠주는 ‘지휘자’ 역할을 한다는 점이다. AI 업계에서 ‘크면 클수록 좋다’는 통념을 뒤집는 결과로 주목받고 있다.

혼자 다 하지 않고, 전문가에게 맡긴다… AI계의 ‘지휘자’ 등장

해당 논문에 따르면, 툴오케스트라는 기존 AI와 완전히 다른 방식으로 작동한다. 지금까지 대부분의 AI는 하나의 거대한 모델이 검색이나 계산 같은 보조 기능의 도움을 받아 모든 문제를 직접 해결했다. 하지만 툴오케스트라는 작은 ‘지휘자 AI’를 중심에 두고, 여러 전문가 AI들을 상황에 맞게 불러 쓴다.

엔비디아 연구팀은 사람이 어려운 문제를 풀 때 자기 지식만 쓰지 않고 전문가나 전문 프로그램의 도움을 받는다는 점에 주목했다. 예를 들어 복잡한 세무 문제가 생기면 세무사에게 물어보고, 법률 문제는 변호사에게 맡기는 식이다. 이런 아이디어를 AI에 적용한 것이 툴오케스트라다. 이 방식에서는 여러 AI가 협력해서 만들어내는 ‘팀워크’가 핵심이다.

지휘자 AI가 부릴 수 있는 ‘전문가’의 범위도 넓다. 수학 문제에 특화된 AI인 Qwen2.5-Math-72B, 프로그래밍에 강한 Qwen2.5-Coder-32B, 그리고 GPT-5나 Claude Opus 4.1 같은 범용 AI까지 다양하다. 지휘자 AI는 문제마다 어떤 전문가를 쓸지, 비용과 성능을 따져가며 실시간으로 결정한다.

GPT-5  25    AI


정답률 37.1% vs GPT-5 35.1%… 비용은 30%만 썼다

엔비디아의 지휘자 AI 성능은 여러 시험에서 입증됐다. ‘인류 최후의 시험(HLE)’이라는 이름의 테스트는 박사급 난이도로, 수학부터 인문학, 자연과학까지 다양한 분야의 초고난도 문제들로 구성돼 있다. 여기서 엔비디아 AI는 37.1%의 정답률을 기록했다. 이는 GPT-5의 35.1%와 Claude Opus 4.1의 34.6%보다 높은 수치다.

더 놀라운 건 비용과 처리 시간이다. 엔비디아 AI는 평균 문제당 9.2센트의 비용과 8.2분의 시간이 걸렸다. 반면 GPT-5는 30.2센트와 19.8분, Claude Opus 4.1은 52.5센트와 25.6분이 필요했다. 엔비디아 AI가 GPT-5의 30%만 쓰고도 더 좋은 성능을 냈다는 의미다. 다른 시험에서도 비슷한 결과가 나왔다. 정보 검색과 추론을 테스트하는 ‘FRAMES’에서는 76.3%로 GPT-5(74.0%)를 넘어섰고, 대화하며 문제를 푸는 능력을 보는 ‘τ²-Bench’에서는 80.2%로 GPT-5(77.7%)보다 높았다. 특히 τ²-Bench에서 엔비디아 AI는 전체 단계 중 40%만 비싼 GPT-5를 쓰고 나머지는 저렴한 AI나 도구를 활용했는데도, 매번 GPT-5를 쓰는 방식보다 성적이 좋았다.

GPT-5  25    AI


보상으로 학습시킨다… 정답·비용·선호도 3가지 동시 만족

툴오케스트라가 이런 성능을 낼 수 있었던 비결은 특별한 학습 방법에 있다. 연구팀은 AI에게 세 가지를 동시에 잘하도록 ‘보상’을 줬다. 첫 번째는 정답을 맞히는 것, 두 번째는 비용과 시간을 아끼는 것, 세 번째는 사용자가 원하는 방식을 따르는 것이다.

보상 시스템을 좀 더 자세히 보면 이렇다. 우선 문제를 맞히면 보상을 주고 틀리면 주지 않는다. 여기까지는 일반적인 방법이다. 하지만 여기에 더해, 돈을 많이 쓰거나 시간이 오래 걸리면 감점을 준다. 마지막으로 사용자가 선호하는 도구를 쓰면 추가 점수를 준다. 이 세 가지를 균형 있게 충족시키는 방향으로 AI가 스스로 학습하도록 만들었다.

사용자 선호도 반영은 특히 실용적이다. 어떤 사람은 개인정보 보호를 위해 자기 컴퓨터에서만 검색하길 원하고, 다른 사람은 더 많은 정보를 얻기 위해 인터넷 검색을 선호할 수 있다. 또 어떤 사람은 비용을 최소화하고 싶어 하고, 다른 사람은 비용이 들어도 가장 정확한 답을 원할 수 있다. 연구팀은 이런 다양한 선호도를 AI에게 학습시켰다. 실험 결과, 엔비디아 AI는 각각의 시험에서 46.7%, 68.4%, 79.5%의 선호도 일치율을 보였는데, 이는 GPT-5의 34.6%, 62.3%, 70.3%보다 훨씬 높은 수치다.

학습 과정에서는 안정성을 위한 여러 기법도 썼다. 예를 들어 AI가 비슷비슷한 답만 계속 내놓으면 학습 효과가 떨어지므로 이런 경우는 거르고, 정해진 형식에 맞지 않거나 답을 제대로 내지 못한 경우도 제외했다.

처음 보는 도구도 척척… 뛰어난 적응력 입증

엔비디아 AI의 놀라운 점은 학습할 때 보지 못했던 새로운 도구들도 잘 활용한다는 것이다. 연구팀은 의도적으로 훈련 때 쓰지 않았던 AI 모델들을 섞어서 테스트했다. 질문 작성용으로 Claude Opus 4.1, o3-mini, GPT-4o를, 프로그래밍용으로 Claude Opus 4.1, Claude Sonnet 4.1, Codestral-22B를, 수학용으로 OpenMath-Llama-2-70b와 DeepSeek-Math-7b를 제공했다.

결과는 인상적이었다. 완전히 새로운 도구 조합임에도 불구하고, 각각의 시험에서 22.0%, 73.8%, 48.8%의 정답률을 기록하며 다른 모든 AI를 앞질렀다. 비용도 34.8센트로 가장 저렴했다. 이는 학습 과정에서 다양한 도구 조합을 경험시킨 덕분이다. AI가 도구의 설명서만 읽고도 각 도구의 장단점을 파악해 적절히 활용할 수 있게 된 것이다. 가격이 달라져도 잘 적응했다. 연구팀은 학습할 때와 완전히 다른 가격표를 적용해서 테스트했는데도, 엔비디아 AI는 각 시험에서 36.9%, 76.6%, 80.4%를 기록하며 최고 성능을 유지했다. 비용은 7.5센트, 처리 시간은 7.8분으로 여전히 가장 효율적이었다. 이는 다양한 가격 조건에서 학습하면 특정 상황에 국한되지 않고 폭넓게 대응할 수 있는 AI가 만들어진다는 걸 보여준다.

단순 명령만으로는 편향 생긴다… 전용 학습 필수

연구팀이 이런 특별한 학습 방법을 개발한 이유는 기존 AI에게 단순히 명령만 내렸을 때 나타나는 문제 때문이었다. GPT-5에게 “여러 AI 중에서 적절한 걸 골라 써라”고 명령했더니, 73%의 경우에 자기 동생뻘인 GPT-5-mini만 골랐다. 자기 가족끼리만 일을 주는 편향이 생긴 것이다. Qwen3-8B라는 AI에게 같은 명령을 했더니, 이번엔 66%의 경우에 가장 비싼 GPT-5만 불렀다. 비용은 신경 쓰지 않고 무조건 최고급 도구만 쓰려는 경향을 보인 것이다.

반면 툴오케스트라로 제대로 학습시킨 엔비디아 AI는 훨씬 균형 잡힌 선택을 했다. GPT-5는 19.5%, GPT-5-mini는 20.7%, Qwen3-32B는 15.9%, 자체 검색은 22.0%로 다양한 도구를 골고루 활용했다. 특정 도구에 쏠림 없이 상황에 맞게 고르게 썼다는 의미다.

도구별 사용 횟수를 봐도 차이가 명확했다. 엔비디아 AI는 문제 하나당 평균적으로 비싼 GPT-5를 1.6번만 불렀다. 반면 Claude Opus 4.1과 Qwen3-235B-A22B는 각각 6.2번씩 불렀다. 이런 효율적인 도구 사용이 높은 성능과 낮은 비용을 동시에 달성한 핵심이었다.

AI의 미래는 팀워크…더 정교한 협업 시스템으로 발전

툴오케스트라는 AI 분야의 최신 흐름과 맥을 같이한다. 초기에는 미리 준비된 데이터로 AI를 학습시키는 방식이 주류였다면, 최근에는 AI가 도구를 쓰는 과정 자체를 학습시키는 방향으로 발전하고 있다. WebGPT, Search-R1, ToRL, StepTool 같은 시스템들이 이런 방향을 선도하고 있다.

툴오케스트라가 차별화되는 지점은 정답만 중요하게 여기지 않고 효율성과 사용자 맞춤도 함께 고려한다는 점이다. 기존 방법들은 복잡한 명령어 작성이나 미리 준비된 데이터에 의존했다면, 보상을 통한 학습은 정답·비용·사용자 선호라는 세 마리 토끼를 동시에 잡을 수 있는 더 유연한 방법을 제공한다.

연구팀은 앞으로 더욱 발전된 협업 AI 시스템을 만들 계획이다. 작은 AI가 지휘자가 되어 다양한 전문 도구들을 조율하는 이 방식이 AI 발전의 새로운 방향이 될 수 있음을 이번 연구가 보여줬다. ‘크면 클수록 좋다’는 기존의 생각을 뒤집고, ‘작아도 똑똑하게 협력하면 이긴다’는 새로운 가능성을 열었다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 엔비디아 AI가 GPT-5보다 작은데 어떻게 이길 수 있나요?

A: 혼자 모든 일을 다 하지 않기 때문입니다. 오케스트라 지휘자가 각 악기 연주자의 장점을 살려 조화로운 연주를 만들듯이, 엔비디아 AI는 수학 문제는 수학 전문 AI에게, 프로그래밍은 코딩 전문 AI에게 맡깁니다. 자신은 전체 과정을 관리하는 역할에 집중하죠. 이렇게 적재적소에 전문가를 활용하니 비싼 모델을 덜 쓰면서도 성능은 더 좋아졌습니다.

Q2. 사용자 선호도 반영은 왜 중요한가요?

A: 사람마다 원하는 게 다르기 때문입니다. 어떤 사람은 개인정보 보호를 위해 인터넷 검색 대신 자기 컴퓨터에서만 검색하길 원하고, 어떤 사람은 비용을 최소화하길 원합니다. 엔비디아 AI는 이런 개인별 요구사항을 이해하고 그에 맞춰 도구를 선택합니다. 실험 결과 GPT-5보다 훨씬 더 정확하게 사용자가 원하는 방식을 따랐습니다.

Q3. 이 기술이 왜 중요한가요?

A: AI 업계에서 ‘크면 클수록 좋다’는 통념을 깼기 때문입니다. 지금까지는 더 좋은 성능을 위해 AI 모델을 계속 키웠는데, 이는 엄청난 비용과 전력 소비로 이어졌습니다. 하지만 이 연구는 작은 모델도 똑똑한 팀워크로 큰 모델을 이길 수 있음을 보여줬습니다. 앞으로 AI가 더 효율적이고 저렴하게 발전할 수 있는 새로운 방향을 제시한 것입니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




GPT-5보다 정확하고 2.5배 싸다… 엔비디아, ‘지휘자 AI’ 전략 공개 – AI 매터스