• Home
  • AI Report
  • DisTrO, 대규모 AI 모델 학습의 새로운 지평을 열다

DisTrO, 대규모 AI 모델 학습의 새로운 지평을 열다

DisTrO_Distributed Training Over-the-Internet

A PRELIMINARY REPORT ON DISTRO

인공지능(AI) 기술의 발전과 함께 대규모 언어 모델(Large Language Models, LLMs)과 대규모 확산 모델(Large Diffusion Models, LDMs)의 중요성이 날로 커지고 있다. 그러나 이러한 모델들의 학습에는 막대한 컴퓨팅 자원과 고속 네트워크 인프라가 필요해 소수의 대기업과 연구소만이 이를 수행할 수 있었다. 이러한 상황에 혁신적인 변화를 가져올 수 있는 새로운 기술이 등장했다. 바로 ‘DisTrO'(Distributed Training Over-the-Internet)라는 분산 학습 최적화 기법이다.

누스 리서치(Nous Research)의 연구진들이 개발한 DisTrO는 기존의 분산 학습 방식과는 달리 네트워크 대역폭 요구사항을 크게 줄이면서도 학습 성능은 유지하는 혁신적인 방법을 제시한다. 이는 AI 모델 학습의 민주화와 효율화를 동시에 달성할 수 있는 게임 체인저로 주목받고 있다.

대역폭 요구사항 대폭 감소, 학습 성능은 유지

DisTrO의 가장 큰 특징은 기존 분산 학습 방식에 비해 GPU 간 통신 대역폭 요구사항을 4-5배 정도 줄일 수 있다는 점이다. 연구팀은 1.2B(12억) 파라미터 규모의 대규모 언어 모델을 학습시키는 과정에서 DisTrO-AdamW 최적화 기법을 적용했을 때, 기존의 AdamW와 올리듀스(All-Reduce) 방식에 비해 857배나 적은 대역폭으로도 동등한 수준의 학습 성능을 달성할 수 있음을 입증했다.

이는 실제 학습 과정에서 각 GPU 노드가 매 스텝마다 평균 2.8MB의 데이터만을 전송하면 된다는 것을 의미한다. 이는 기존 방식의 74.4GB에 비해 획기적으로 감소한 수치다. 이러한 대역폭 감소는 고속 네트워크 인프라 없이도 일반 가정용 인터넷 연결만으로 대규모 AI 모델의 분산 학습이 가능해질 수 있음을 시사한다.

연구팀은 더 나아가 하이퍼파라미터를 세심하게 조정하면 사전 학습 과정에서 최대 3000배, 미세 조정 과정에서는 최대 10000배까지 대역폭 요구사항을 줄일 수 있을 것으로 예측하고 있다.

분산 학습의 새로운 패러다임 제시

DisTrO는 단순히 대역폭 요구사항을 줄이는 것에 그치지 않고, 분산 학습의 새로운 패러다임을 제시한다. 이 기술은 네트워크 토폴로지나 신경망 아키텍처에 구애받지 않으며, 분산 데이터 병렬(Distributed Data Parallelism, DDP) 학습을 기본적으로 지원한다.

특히 주목할 만한 점은 DisTrO가 학습 과정에서 일부 노드의 성능 저하나 연결 끊김에도 놀라운 회복력을 보인다는 것이다. 이는 불안정한 네트워크 환경에서도 안정적인 학습이 가능함을 의미한다. 또한 새로운 노드가 중간에 학습에 참여하는 것도 쉽게 수용할 수 있어, 유연한 분산 학습 환경 구축이 가능하다.

이러한 특성은 DisTrO가 연합 학습(Federated Learning)이나 완전 분산형 학습 네트워크 구축에도 적용될 수 있는 가능성을 열어준다. 이는 데이터 프라이버시 보호와 탈중앙화된 AI 개발이라는 최근의 기술적 요구에 부합하는 중요한 진전이라 할 수 있다.

AI 개발의 민주화와 환경 영향 감소 기대

DisTrO 기술의 등장은 AI 개발 생태계에 큰 변화를 가져올 것으로 예상된다. 우선, 고가의 전문 하드웨어와 인프라 없이도 대규모 AI 모델 학습이 가능해짐에 따라 AI 개발의 진입 장벽이 크게 낮아질 전망이다. 이는 더 많은 연구자와 개발자들이 첨단 AI 기술에 접근할 수 있게 되어 혁신의 속도를 가속화할 수 있다.

또한 DisTrO는 AI 모델 학습에 따른 환경적 영향을 줄이는 데도 기여할 수 있다. 예를 들어, 메타(Meta)의 라마 3(Llama 3) 프로젝트는 24,000개의 H100 GPU로 구성된 두 개의 대규모 슈퍼클러스터를 필요로 했고, 이 과정에서 약 11,000 미터톤의 이산화탄소가 배출되었다. DisTrO를 활용하면 이러한 중앙집중식 대규모 데이터센터 대신 분산된 소규모 데이터센터나 유휴 컴퓨팅 자원을 활용할 수 있어, 에너지 소비와 환경 영향을 크게 줄일 수 있을 것으로 기대된다.

DisTrO 기술은 아직 초기 단계에 있지만, 그 잠재력은 매우 크다. 앞으로 더 큰 규모의 모델에 대한 검증과 다양한 응용 분야에서의 적용 가능성 탐구가 필요할 것이다. 또한 이 기술이 제기하는 새로운 가능성들, 예를 들어 모델 크기 증가에 따른 대역폭 요구사항의 변화나 완전 분산형 학습 네트워크의 구현 등에 대한 추가 연구도 기대된다.

DisTrO의 등장은 AI 기술 발전의 새로운 장을 열었다고 볼 수 있다. 이 기술이 더욱 발전하고 널리 채택된다면, AI 개발의 민주화, 연구의 가속화, 그리고 보다 지속 가능한 AI 생태계 구축이라는 여러 목표를 동시에 달성할 수 있을 것으로 보인다.

기사에 인용된 논문은 링크에서 확인할 수 있다.


본 기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




DisTrO, 대규모 AI 모델 학습의 새로운 지평을 열다 – AI 매터스