IBM, 400M 파라미터로 초경량 LLM '그래니트 3.0' 공개...성능은 2배 높여

IBM Granite Language Models

혁신적인 초경량 AI 모델의 등장

IBM이 파라미터 수를 크게 줄이면서도 성능은 향상시킨 초경량 오픈소스 언어모델 ‘그래니트 3.0(Granite 3.0)’을 공개했다. 최소 400M(400만)개에서 최대 8B(80억)개의 파라미터를 가진 이 모델은 기업용 사례에 특화되어 있으며, 특히 다국어 지원, 코딩, 함수 호출, 보안 성능 등에서 뛰어난 역량을 보여준다고 IBM은 밝혔다.

그래니트 3.0은 두 가지 혁신적인 아키텍처를 기반으로 설계되었다. 첫 번째는 총 12조 개의 토큰으로 학습된 2B와 8B 파라미터를 가진 밀집 모델(Dense Models)이다. 이 모델은 전통적인 트랜스포머 아키텍처를 따르면서도 최적화된 성능을 제공한다. 두 번째는 10조 개의 토큰으로 학습된 1B와 3B 파라미터의 희소 MoE(Mixture-of-Expert) 모델로, 각각 400M과 800M개의 활성화된 파라미터만을 사용한다. 이러한 이중 아키텍처 접근 방식은 모델의 효율성과 성능을 동시에 극대화하는데 큰 역할을 했다.

놀라운 성능 향상 입증

연구진이 실시한 광범위한 평가에서 그래니트 3.0은 유사한 규모의 기존 모델들을 크게 앞지르는 성능을 보여줬다. 특히 8B 모델은 라마-3.1 8B와 미스트랈 7B를 상당한 차이로 능가했으며, 더욱 놀라운 점은 2B 밀집 모델이 미스트랄 7B와 비슷한 수준의 성능을 달성했다는 것이다. 이는 모델의 크기를 줄이면서도 성능은 유지할 수 있다는 가능성을 보여주는 중요한 성과다.

그래니트 3.0의 가장 주목할 만한 특징은 뛰어난 경량화 성능이다. 가장 큰 밀집 모델도 8B 파라미터에 불과하며, 가장 작은 MoE 모델은 400M개의 활성 파라미터만을 사용해 제한된 컴퓨팅 환경에서도 원활한 구동이 가능하다. 이는 엣지 디바이스나 모바일 환경에서의 활용 가능성을 크게 높인 것으로 평가된다.

또한 이 모델은 아파치 2.0 라이선스를 채택해 기업과 소비자 모두가 자유롭게 활용할 수 있다는 장점이 있다. IBM의 AI 윤리 원칙을 엄격히 준수하며 라이선스가 허용된 데이터로만 학습을 진행했으며, 데이터 소스, 처리 파이프라인, 데이터 혼합 탐색 등에 대한 상세한 정보를 투명하게 제공함으로써 중요 업무나 규제 대상 애플리케이션에서도 높은 신뢰성을 보장한다.

다양한 분야에서의 성능 검증

연구진은 그래니트 3.0의 성능을 다양한 벤치마크를 통해 검증했다. CNN/DM 문서 요약 태스크에서는 2.16배, 코딩 관련 태스크에서는 1.82배, 시맨틱 파싱 작업에서는 2.0배의 속도 향상을 달성했다. 특히 기업 환경에서 중요하게 여기는 지식 처리, 논리적 추론, 함수 호출, 다국어 지원, 코드 생성, 사이버보안, RAG(Retrieval Augmented Generation) 등의 태스크에서도 우수한 성능을 입증했다.

IBM은 그래니트 3.0을 통해 대규모 컴퓨팅 자원 없이도 혁신적인 기술 개발만으로 더 강력한 AI 모델을 만들 수 있다는 가능성을 제시했다. 모든 모델은 깃허브를 통해 공개되어 있으며, IBM은 지속적인 업데이트를 통해 다국어 처리 능력과 코딩 기능을 개선하고, 장문 컨텍스트를 지원하는 모델 변형도 출시할 계획이라고 밝혔다.

또한 IBM은 이번 연구가 AI 모델의 발전 방향에 새로운 이정표를 제시했다고 평가했다. 단순히 모델의 크기를 키우는 것이 아니라, 효율적인 아키텍처 설계와 최적화된 학습 방법을 통해 더 작고 강력한 모델을 만들 수 있다는 것을 입증했기 때문이다. 이는 향후 AI 기술의 민주화와 지속 가능한 발전에 중요한 의미를 가진다고 볼 수 있다.

모델의 공개와 함께 IBM은 책임있는 AI 개발을 위한 가이드라인도 함께 제시했다. 위험 평가와 위해 감지 기능을 갖춘 ‘그래니트 가디언(Granite Guardian)’ 모델군도 함께 공개하여, 개발자들이 안전하고 책임있는 AI 구현을 할 수 있도록 지원하고 있다. 이는 AI 기술의 발전과 함께 윤리적 고려사항도 중요하게 다루고 있음을 보여준다.

기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.