Search

AI의 진화, ‘생각하는 능력’ 갖춘 LLM 개발…메타, 혁신적 훈련 방법 ‘TPO’ 공개

Thinking LLMs: General Instruction Following with Thought Generation
이미지 출처: 미드저니 생성

Thinking LLMs: General Instruction Following with Thought Generation

AI의 새로운 이정표, ‘생각하는’ 언어모델의 탄생

메타(Meta)가 대규모 언어모델(LLM)에 ‘생각하는 능력’을 부여하는 혁신적인 훈련 방법을 개발했다. 기존의 AI 모델들이 입력에 대해 즉각적으로 답변을 생성했던 것과 달리, 이번에 개발된 방식은 인간처럼 답변 전에 내부적인 사고 과정을 거치도록 설계됐다. 특히 이 기술은 단순한 수학이나 논리적 추론을 넘어 일반적인 작업 지시에도 활용될 수 있어, AI 발전 과정에서 중요한 전환점이 될 것으로 평가받고 있다.

연구진이 개발한 ‘Thought Preference Optimization(TPO)’는 추가적인 인간 데이터 없이도 AI 모델이 스스로 생각하는 방법을 학습할 수 있게 하는 훈련 방법이다. TPO는 모델이 주어진 작업에 대해 다양한 ‘생각’ 후보들을 생성하고, 각 생각에 따른 응답의 품질을 평가한 후, 가장 좋은 결과를 도출한 사고 과정을 최적화하는 방식으로 작동한다. 이러한 접근은 기존의 지도 학습 방식에서 벗어나 AI가 자율적으로 사고하는 방법을 터득하도록 한다는 점에서 획기적이다.

주요 벤치마크에서 입증된 TPO의 우수성

TPO로 훈련된 AI 모델은 일반 지시 수행 능력을 평가하는 주요 벤치마크에서 놀라운 성과를 거뒀다. 이 모델은 AlpacaEval에서 52.5%, Arena-Hard에서 37.3%의 승률을 기록하며, 각각 기존 모델 대비 4.1%p, 4.3%p 향상된 성능을 보였다. 특히 주목할 만한 점은 8B 파라미터의 비교적 작은 규모의 모델임에도 불구하고, GPT-4와 같은 대형 모델들과 견줄만한 성능을 보였다는 것이다. 이는 모델의 크기를 늘리는 것 외에도 훈련 방법의 혁신을 통해 성능 향상이 가능하다는 것을 입증한다.

연구팀의 세부 평가에 따르면, TPO 모델은 예상을 뛰어넘는 범위에서 성능 향상을 보였다. 특히 마케팅, 건강, 일반 상식과 같은 비논리적 분야에서도 뚜렷한 성능 향상이 관찰됐는데, 이는 ‘생각하는 능력’이 수학이나 코딩과 같은 논리적 추론 분야에만 국한되지 않음을 보여준다. 구체적으로 시나 에세이 작성 시에는 구조와 핵심 요소를 먼저 계획하고, 마케팅 콘텐츠 생성 시에는 대상 독자와 핵심 메시지를 먼저 분석하는 등 다양한 분야에서 체계적인 접근이 가능해졌다.

현재의 한계와 향후 과제

그러나 이번 연구에서 몇 가지 중요한 한계점도 발견됐다. 특히 수학 문제 해결 능력에서는 GSM8K 데이터셋 평가에서 기존 모델보다 낮은 성능을 기록했는데, 이는 훈련 데이터셋의 수학 관련 내용 부족이 주요 원인으로 지목됐다. 또한 때로는 과도한 ‘생각’ 과정으로 인해 최종 답변을 도출하지 못하거나 잘못된 방향으로 사고가 확장되는 문제도 발견됐다. 사용자의 필요에 따른 사고 과정 길이 조절 기능이 부재하다는 점도 향후 개선이 필요한 과제로 지적됐다.

연구진은 향후 더 큰 규모의 모델에 TPO를 적용하고, 다양한 유형의 ‘생각’ 프롬프트를 활용하는 등의 방식으로 성능을 더욱 개선할 수 있을 것으로 전망했다. 또한 수학 문제 해결 능력 향상을 위한 훈련 데이터 보완과 사고 과정의 효율성 개선을 위한 알고리즘 개선도 계획하고 있다. 이번 연구 결과는 AI가 단순한 패턴 인식이나 응답 생성을 넘어, 인간처럼 생각하고 추론하는 방향으로 발전할 수 있다는 가능성을 보여줬으며, 이는 AI가 더 복잡한 문제를 해결하고 사용자의 다양한 요구에 더 효과적으로 대응할 수 있게 될 것임을 시사한다.

기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




AI의 진화, ‘생각하는 능력’ 갖춘 LLM 개발…메타, 혁신적 훈련 방법 ‘TPO’ 공개 – AI 매터스 l AI Matters