Search

MIT, ‘절대 까먹지 않는’ AI 개발… GPT-4보다 4배 좋은 이유는 “까먹기 때문”

Beyond Context Limits: Subconscious Threads for Long-Horizon Reasoning
이미지 출처: 이디오그램 생성

지금까지 챗GPT 같은 AI들에게는 큰 약점이 하나 있었다. 바로 ‘기억력 한계’ 문제였다. 긴 대화를 하거나 복잡한 문제를 풀 때 중간에 앞서 말한 내용을 깜빡하는 현상이 자주 발생했다. 이는 AI가 한번에 처리할 수 있는 정보량에 제한이 있기 때문이다. 예를 들어 현재 가장 뛰어나다고 평가받는 딥시크 R1(Deepseek R1) AI도 최대 128,000개의 단어까지만 기억할 수 있다. 이는 소설책 한 권 분량 정도다. 더 긴 문서를 다루거나 복잡한 업무를 처리할 때는 중간에 내용을 잊어버리게 된다.

이 문제를 해결하기 위해 그동안 개발자들은 여러 개의 AI를 동시에 사용하는 복잡한 시스템을 만들어야 했다. 하지만 이는 비용도 많이 들고 관리도 어려웠다. 이에 MIT와 AI·ML 연구 스타트업 서브컨셔스 시스템즈(Subconscious Systems)의 연구진들은 완전히 새로운 방법을 생각해냈다. 바로 인간의 뇌가 작동하는 방식을 AI에 적용한 것이다.

우리가 복잡한 일을 할 때를 생각해 보자. 프로그래밍을 할 때 모든 코드를 다 기억하지 않는다. 지금 작업하는 부분에만 집중하고, 이미 완성한 부분은 ‘결과’만 기억한다. 세부사항은 뇌에서 자동으로 정리해서 잊어버린다. 이렇게 해야 현재 작업에 집중할 수 있기 때문이다. 해당 연구 논문에 따르면, 연구진은 이런 인간의 사고방식을 AI에 적용했다. 복잡한 문제를 받으면 AI가 스스로 작은 단위로 쪼개서 해결하고, 완료된 부분은 결과만 기억하고 자세한 과정은 ‘잊어버리도록’ 만든 것이다. 이렇게 만든 AI가 바로 ‘TIM(Thread Inference Model)’이다.

컴퓨터 메모리를 90%나 사용하면서도 더 똑똑해진 AI

놀라운 것은 이 방식이 컴퓨터 자원을 더 효율적으로 사용한다는 점이다. 기존 AI들은 모든 대화 내용을 계속 기억하려고 해서 컴퓨터 메모리를 많이 잡아먹었다. 하지만 TIM은 필요 없는 정보를 적극적으로 삭제하면서도 오히려 성능이 더 좋아졌다.

실제 테스트에서 TIM은 컴퓨터 메모리의 90%를 활용하면서도 기존 AI보다 빠르고 정확하게 작업을 처리했다. 수학 문제를 푸는 테스트에서는 정확도가 40%에서 46.7%로 올라갔고, 과학 문제에서도 44.9%에서 48.5%로 향상되었다. 이는 기존 상식을 뒤엎는 결과다. 보통은 컴퓨터가 더 많은 정보를 처리하려면 성능이 떨어지는데, TIM은 오히려 불필요한 정보를 잊어버림으로써 더 집중해서 문제를 해결할 수 있게 된 것이다.

한번에 30개 프로그램을 동시에 실행하는 슈퍼 AI

TIM과 함께 개발된 TIMRUN이라는 시스템의 또 다른 놀라운 능력은 여러 가지 도구를 동시에 사용할 수 있다는 점이다. 마치 컴퓨터에서 여러 프로그램을 동시에 켜놓고 사용하는 것처럼, 이 AI는 최대 30개의 다른 도구나 프로그램을 한꺼번에 실행할 수 있다. 기존 AI들은 하나의 도구를 사용할 때마다 처음부터 다시 모든 정보를 확인해야 했다. 예를 들어 인터넷 검색을 하고, 그 결과를 분석하고, 또 다른 검색을 하려면 매번 전체 대화 내용을 다시 읽어야 했다. 이는 시간도 오래 걸리고 비용도 많이 들었다.

하지만 TIMRUN은 이런 번거로움을 완전히 없앴다. 한번 시작하면 필요한 모든 도구들을 자동으로 연결해서 사용하고, 각 도구의 결과를 바로 다음 작업에 활용한다. 마치 숙련된 비서가 여러 업무를 동시에 척척 처리하는 것과 같다.

실제 대결에서 GPT-4를 압도적으로 이긴 결과

연구진은 TIM의 실력을 확인하기 위해 실제 어려운 문제들로 테스트해 봤다. 그 결과는 충격적이었다. 먼저 복잡한 정보 검색과 분석이 필요한 ‘데이터커먼스 QA’ 테스트에서 TIM은 67.9%의 정확도를 기록했다. 이는 기존 최고 수준의 AI들과 비슷한 성과였지만, 중요한 차이점이 있었다. 다른 AI들은 문제를 풀기 위해 4,000개 이상의 복잡한 사전 설명이 필요했지만, TIM은 간단한 지시사항만으로도 같은 성과를 냈다.

더욱 놀라운 것은 ‘브라우즈컴프’라는 초고난도 테스트에서의 결과였다. 이 테스트는 인터넷에서 정보를 찾고, 여러 웹페이지를 분석하고, 복잡한 조건을 만족하는 답을 찾는 매우 어려운 과제다. 해당 과제에서 TIM은 GPT-4보다 4배 이상 뛰어난 성능을 보였고, 심지어 경량 버전도 GPT-4를 넘어섰다.

FAQ

Q: TIM은 지금까지 나온 AI들과 뭐가 다른가요?

A: 기존 AI는 긴 대화를 하면 앞의 내용을 잊어버리는데, TIM은 인간처럼 중요한 것만 기억하고 불필요한 세부사항은 잊어버립니다. 덕분에 훨씬 더 긴 작업도 끝까지 완료할 수 있습니다.

Q: TIMRUN의 동시 작업 기능이 왜 중요한가요?

A: 기존 AI는 인터넷 검색 한번 할 때마다 처음부터 다시 모든 대화를 읽어야 했습니다. TIMRUN은 한번에 여러 도구를 동시에 사용할 수 있어서 시간도 절약되고 비용도 훨씬 적게 듭니다.

Q: 이 기술이 상용화되면 우리 생활이 어떻게 바뀔까요?

A: 복잡한 업무나 연구를 할 때 여러 개의 AI를 번갈아 사용할 필요가 없어집니다. 하나의 AI로도 장시간 집중해서 복잡한 문제를 끝까지 해결할 수 있게 되어, 업무 효율성이 크게 향상될 것입니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문 명: Beyond Context Limits: Subconscious Threads for Long-Horizon Reasoning

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




MIT, ‘절대 까먹지 않는’ AI 개발… GPT-4보다 4배 좋은 이유는 “까먹기 때문” – AI 매터스 l AI Matters