Welcome to the Era of Experience
인간 데이터의 한계? 고품질 데이터 소스 고갈로 AI 발전 둔화
인공지능(AI) 기술은 현재 중요한 변곡점에 도달했다. 지금까지 대형 언어 모델(LLM)을 포함한 AI 시스템들은 주로 인간이 생성한 데이터를 학습하여 발전해왔다. 그러나 이제 인공지능 개발은 ‘인간 데이터의 시대’에서 ‘경험의 시대’로 전환점을 맞이하고 있다. 구글 연구원 데이비드 실버와 캐나다의 컴퓨터 과학자 리차드 서튼이 발표한 연구에 따르면, 앞으로 AI는 인간의 데이터가 아닌 자신의 경험을 통해 학습하는 방식으로 발전할 것이며, 이를 통해 인간의 능력을 뛰어넘는 초인적 역량을 갖추게 될 것이라고 전망했다.
해당 연구 논문에 따르면, 인간 데이터 기반 학습의 한계는 명확하다. 수학, 코딩, 과학 등 주요 분야에서 인간 지식에서 추출할 수 있는 정보는 빠르게 한계에 다다르고 있다. 고품질 데이터 소스는 이미 대부분 소비됐거나 곧 소진될 예정이며, 인간 데이터만으로 AI를 훈련시키는 방식은 발전 속도가 눈에 띄게 둔화되고 있다. 더욱이 새로운 정리, 기술, 과학적 발견과 같은 가치 있는 통찰은 현재 인간 지식의 경계를 넘어선 영역에 있어 기존 인간 데이터로는 포착할 수 없다.
알파프루프의 성공 사례: 10만 개 인간 증명에서 1억 개 자체 증명으로 진화한 AI
‘경험의 시대’에서 AI는 환경과 상호작용하며 자체적으로 생성한 데이터를 통해 학습한다. 이러한 접근 방식은 이미 수학 분야에서 성과를 내고 있다. 알파프루프(AlphaProof)는 국제 수학 올림피아드에서 메달을 획득한 최초의 프로그램으로, 인간 수학자들이 수년에 걸쳐 만든 약 10만 개의 공식 증명에 초기 노출된 후, 강화학습(RL) 알고리즘을 통해 1억 개 이상의 추가 증명을 스스로 생성했다. 이처럼 상호작용을 통한 경험 학습은 기존 공식 증명의 한계를 넘어 새롭고 도전적인 문제에 대한 해결책을 발견할 수 있게 했다.
경험의 시대를 특징짓는 핵심 요소들은 여러 차원에서 현재 AI 시스템의 패러다임을 바꿀 것이다. 무엇보다 AI는 짧은 상호작용에 국한되지 않고 오랜 시간에 걸친 ‘경험의 흐름’ 속에서 학습하게 된다. 또한 인간과의 대화라는 제한된 채널을 넘어 환경 내에서의 풍부한 행동과 관찰을 통해 더욱 다양하게 상호작용한다. 보상 체계 역시 인간의 사전 판단에 의존하지 않고 환경 속에서의 실제 경험에 근거하게 되며, 사고 과정에서도 인간의 사고방식만을 모방하는 것이 아닌 자체적인 경험에 기반한 계획과 추론 능력을 발전시킨다. 이러한 다차원적 변화는 현재 AI 시스템이 가진 한계를 뛰어넘어 궁극적으로 초인적 능력 개발로 이어질 것이다.
장기적 목표 달성을 위한 AI: 수개월에서 수년간 지속되는 경험의 흐름
‘경험의 시대’에서 AI 에이전트는 짧은 상호작용이 아닌 오랜 시간에 걸친 경험의 흐름 속에서 존재한다. 인간 데이터 기반의 AI가 주로 짧은 에피소드(사용자 질문에 대한 단일 응답)에 초점을 맞췄다면, 경험 기반 AI는 인간처럼 수년에 걸쳐 지속되는 행동과 관찰의 흐름 속에서 학습한다.
이러한 장기적 학습은 원거리 미래 목표 달성을 위한 행동 선택을 가능하게 한다. 예를 들어, 건강 관리 AI는 사용자의 웨어러블 기기에 연결되어 수개월 동안 수면 패턴, 활동 수준, 식습관을 모니터링하고 개인화된 권장사항을 제공할 수 있다. 교육 AI는 언어 학습 진행 상황을 추적하고 지식 격차를 식별하며 학습 스타일에 맞게 교육 방법을 조정할 수 있다. 과학 연구 AI는 새로운 물질 발견이나 이산화탄소 감소와 같은 야심찬 목표를 추구하며 장기간에 걸쳐 실험을 수행하고 결과를 분석할 수 있다.
각 사례에서 AI는 지정된 목표에 대한 장기적 성공을 최대화하기 위해 일련의 단계를 수행한다. 개별 단계가 즉각적인 이익을 제공하지 않거나 단기적으로는 오히려 불리할 수 있더라도, 장기적 성공에 기여할 수 있다. 이는 사용자 요청에 즉각적인 응답만 제공하는 현재 AI 시스템과 크게 대조된다.
디지털 세계를 넘어: 실험실의 로봇 팔부터 환경 센서까지 제어하는 자율 AI
‘경험의 시대’에서 AI는 실제 세계에서 자율적으로 행동할 것이다. 인간 데이터 시대의 대형 언어 모델(LLM)은 주로 사용자에게 텍스트를 출력하고 사용자로부터 텍스트를 입력받는 인간 중심의 행동과 관찰에 초점을 맞췄다. 이는 운동 제어와 센서를 통해 환경과 상호작용하는 자연 지능과는 크게 다르다.
최근 AI는 디지털 세계에서 행동을 호출하는 능력을 갖추기 시작했다. 초기에는 이러한 기능이 주로 인간 도구 사용 예제에서 나왔지만, 코딩 및 도구 사용 능력은 점점 더 실행 피드백에 기반을 두고 있다. 최근 새로운 AI 에이전트들이 인간이 컴퓨터를 사용하는 것과 동일한 인터페이스를 통해 컴퓨터와 상호작용하기 시작했다. 이러한 변화는 인간 중심 통신에서 AI가 세계에서 독립적으로 행동할 수 있는 훨씬 더 자율적인 상호작용으로의 전환을 알린다.
이러한 풍부한 상호작용은 디지털 세계를 자율적으로 이해하고 제어하는 수단을 제공할 것이다. AI는 사용자와의 소통과 협업을 자연스럽게 촉진하는 사용자 인터페이스와 같은 ‘인간 친화적’ 행동과 관찰을 사용할 수 있다. 또한 AI는 코드를 실행하고 API를 호출하는 ‘기계 친화적’ 행동을 취함으로써 목표를 위해 자율적으로 행동할 수 있다. 경험의 시대에서 AI는 디지털 인터페이스를 통해 실제 세계와도 상호작용할 것이다. 과학 연구 AI는 환경 센서를 모니터링하고, 원격으로 망원경을 작동하거나, 실험실에서 로봇 팔을 제어하여 자율적으로 실험을 수행할 수 있다.
FAQ
Q: ‘경험의 시대’란 정확히 무엇이며 현재 AI와 어떻게 다른가요?
A: 경험의 시대는 AI가 인간이 생성한 데이터에만 의존하지 않고 환경과의 직접적인 상호작용을 통해 학습하는 새로운 패러다임입니다. 현재 AI가 주로 인간 지식의 한계 내에서 작동하는 반면, 경험 기반 AI는 장기적 경험의 흐름 속에서 학습하고, 환경과 풍부하게 상호작용하며, 실제 결과에 기반한 보상을 통해 인간 지식의 경계를 넘어설 수 있습니다.
Q: 강화학습(RL)이 AI 발전에 왜 중요한가요?
A: 강화학습은 AI가 시행착오를 통해 목표를 달성하는 방법을 학습하는 알고리즘입니다. 환경과 상호작용하며 피드백을 받아 행동을 조정함으로써, AI는 인간의 지시나 예제 없이도 새로운 전략과 해결책을 스스로 발견할 수 있습니다. 알파프루프와 같은 AI가 국제 수학 올림피아드에서 메달을 획득한 것처럼, 강화학습은 AI가 인간 지식을 뛰어넘는 능력을 개발하는 데 핵심 역할을 합니다.
Q: 경험 기반 AI는 우리 일상생활에 어떤 영향을 미칠 수 있나요?
A: 경험 기반 AI는 개인 건강 관리, 맞춤형 교육, 과학 연구 등 다양한 분야에서 혁신을 가져올 수 있습니다. 예를 들어, 건강 관리 AI는 사용자의 생체 데이터를 장기간 모니터링하여 개인화된 건강 조언을 제공하고, 교육 AI는 학습자의 진행 상황을 추적하며 학습 방식을 조정할 수 있습니다. 또한 과학 연구 분야에서는 실험을 자율적으로 설계하고 수행함으로써 신소재 개발이나 기후 변화 해결책과 같은 혁신적 발견을 가속화할 수 있습니다.
해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.
이미지 출처: Welcome to the Era of Experience
기사는 클로드와 챗GPT를 활용해 작성되었습니다.