• Home
  • AI Report
  • 인간은 12시간 뒤에도 작업 성공률 20%, AI는 6%… 장시간 작업에서 드러난 AI의 치명적 약점

인간은 12시간 뒤에도 작업 성공률 20%, AI는 6%… 장시간 작업에서 드러난 AI의 치명적 약점

Is there a half-life for the success rates of AI agents?
이미지 출처: Is there a half-life for the success rates of AI agents?

Is there a half-life for the success rates of AI agents?


7개월마다 AI 작업 능력 2배 증가…옥스포드 연구팀이 발견한 수학적 모델

연구기관 메트(METR)의 과학자들이 발표한 연구에 따르면, 최첨단 AI 에이전트들이 완료할 수 있는 작업의 시간 길이가 7개월마다 두 배씩 증가하고 있다. 옥스포드 대학의 토비 오드(Toby Ord) 교수는 이 데이터를 분석해 AI 에이전트의 성공률이 작업 길이에 따라 지수적으로 감소한다는 흥미로운 수학적 모델을 발견했다. 이는 마치 방사성 동위원소의 붕괴와 유사한 ‘반감기’ 현상으로 설명될 수 있다는 것이다.

메트의 연구진은 소프트웨어 엔지니어링, 사이버보안, 일반 추론, 기계학습 관련 170개 작업을 포함한 테스트 세트를 통해 AI 에이전트들의 성능을 측정했다. 그 결과 클로드 3.7 소닛(Claude 3.7 Sonnet)을 비롯한 최신 AI 모델들이 수행할 수 있는 작업의 시간 길이가 꾸준히 증가하는 추세를 보였다.

AI 작업 시간 두 배면 성공률은 제곱으로 감소, 방사성 물질 붕괴와 유사한 패턴 확인

오드 교수의 분석에 따르면, AI 에이전트의 작업 성공률 감소는 ‘일정한 위험률’ 모델로 설명할 수 있다. 이 모델에서는 AI가 작업을 수행하는 각 시간 단위마다 실패할 확률이 일정하게 유지된다. 따라서 작업 시간이 길어질수록 전체 작업을 성공적으로 완료할 확률은 지수적으로 감소한다. 이러한 현상은 AI 에이전트가 작업을 여러 하위 작업의 연속으로 처리하며, 하나라도 실패하면 전체 작업이 실패하기 때문에 발생한다. 또한 현재의 AI 시스템이 이전 단계의 실수를 복구하는 능력이 제한적이라는 점도 이러한 패턴의 원인으로 작용한다.

흥미로운 점은 이 모델에 따르면 작업 길이가 두 배가 되면 성공 확률은 제곱으로 감소한다는 것이다. 예를 들어, 1시간짜리 작업을 50% 확률로 성공할 수 있는 AI는 2시간짜리 작업에서는 25%의 성공률만 보이게 된다.

12시간 작업에서 인간 20% vs AI 6% 성공률… 장시간 작업에서 드러나는 인간-AI 격차

메트의 연구는 인간과 AI의 작업 수행 능력 차이에서도 흥미로운 발견을 제시한다. 인간의 경우, 작업 시간이 길어질수록 성공률 감소가 AI보다 더 완만한 것으로 나타났다. 예를 들어, 인간은 1.5시간 작업에서 약 50%의 성공률을 보이고 12시간이 되어도 여전히 20% 이상의 성공률을 유지했다. 반면 일정한 위험률 모델을 따르는 AI라면 같은 조건에서 6.25%의 성공률을 보였을 것이다.

이러한 차이는 인간이 이전 단계의 실수를 인식하고 수정하는 능력이 AI보다 뛰어날 가능성을 시사한다. 오드 교수는 이 차이에 대한 더 깊은 연구가 필요하다고 강조하며, 현재 AI 패러다임의 중요한 비효율성을 보여주는 지표일 수 있다고 설명한다.

현재 50% 성공률 작업, 99% 성공률 달성까지 4년 소요… AI 발전 예측의 새로운 지표

일정한 위험률 모델은 AI 에이전트의 미래 성능을 예측하는 데도 유용하다. 이 모델에 따르면 50% 성공률을 달성한 작업 길이에 비해 80% 성공률을 달성할 수 있는 작업 길이는 약 1/3 수준이다. 또한 90%의 성공률은 약 1/7, 99%의 성공률은 약 1/70 수준으로 감소한다.

메트의 연구에서 발견된 7개월마다 작업 수행 가능 시간이 두 배로 늘어나는 추세를 이 모델에 적용하면, 특정 길이의 작업에서 80% 성공률에 도달하는 데는 50% 성공률에 도달한 시점으로부터 약 1년이 걸리고, 99% 성공률에 도달하는 데는 약 4년이 필요하다는 예측이 가능하다. 이러한 예측은 AI 시스템이 현재 보여주는 한계점을 이해하고 개선 방향을 설정하는 데 중요한 지표가 될 수 있다. 특히 긴 시간 동안의 일관된 작업 수행이 필요한 분야에서 AI의 신뢰성을 향상시키기 위한 연구 방향을 제시한다.

FAQ

Q: AI 에이전트의 ‘반감기’는 정확히 무엇을 의미하나요?

A: AI 에이전트의 반감기란 작업 성공 확률이 절반으로 줄어드는 데 필요한 작업 시간을 의미합니다. 예를 들어, 1시간 작업에서 80%의 성공률을 보이는 AI가 2시간 작업에서 40%의 성공률을 보인다면, 이 AI의 반감기는 1시간입니다. 이는 방사성 물질의 반감기 개념과 유사합니다.

Q: 왜 AI는 긴 작업에서 인간보다 더 빠르게 성공률이 감소하나요?

A: 현재의 AI 시스템은 작업을 여러 하위 작업으로 분해해 처리하며, 하나라도 실패하면 전체 작업이 실패합니다. 또한 이전 단계에서 발생한 오류를 인식하고 복구하는 능력이 인간보다 제한적입니다. 인간은 자신의 실수를 인지하고 수정하는 과정에서 더 유연한 대처가 가능합니다.

Q: AI 에이전트 성능의 7개월 배가 법칙은 앞으로도 계속될까요?

A: 메트의 연구는 현재까지의 트렌드를 보여주지만, 이 성장률이 무한정 지속될지는 확실하지 않습니다. 기술적 한계, 알고리즘 개선의 난이도 증가, 또는 새로운 혁신적 접근법의 등장에 따라 이 속도가 변할 수 있습니다. 또한 이 연구 결과는 특정 작업 세트에서 얻어진 것으로, 다른 유형의 작업에서는 다른 패턴이 나타날 수 있습니다.

해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.

이미지 출처: 이디오그램 생성

기사는 클로드와 챗GPT를 활용해 작성되었습니다. 




인간은 12시간 뒤에도 작업 성공률 20%, AI는 6%… 장시간 작업에서 드러난 AI의 치명적 약점 – AI 매터스