xAI, 그록-2 모델 성능 대폭 개선... 3일 만에 추론 코드 전면 재작성

엑스AI(xAI)가 대형 언어 모델(LLM) 챗봇 ‘그록-2(Grok-2)’의 성능을 크게 개선했다. 엑스AI 개발자들이 불과 3일 만에 추론 코드를 전면 재작성한 결과다.

미국 IT매체 벤처비트는 엑스AI의 개발자 이고르 바부슈킨가 소셜 네트워크 X를 통해 “그록-2 미니가 어제보다 2배 빨라졌다”는 멘트을 인용하며 그록-2 모델의 성능 개선 소식을 알렸다.

바부슈킨은 “지난 3일 동안 리안민 정과 사이드 말레키가 SGLang을 사용해 우리의 추론 스택을 처음부터 다시 작성했다”고 설명했다. 이번 개선으로 그록-2의 두 버전인 그록-2와 그록-2 미니 모두 정보 분석 및 응답 출력 속도가 크게 향상됐다. 특히 그록-2 미니는 그록-2의 경량화 버전으로, 더 빠른 속도를 위해 설계됐다. 바부슈킨은 “두 모델 모두 속도가 빨라졌을 뿐만 아니라 정확도도 약간 향상됐다”고 덧붙였다. 개발자들은 그록-2의 추론 코드를 재작성하기 위해 SGLang을 활용했다. SGLang은 복잡한 언어 모델 프로그램을 실행하기 위한 고효율 오픈소스 시스템이다. 기존 시스템보다 최대 6.4배 높은 처리량을 달성할 수 있다.

SGLang은 스탠퍼드 대학, 캘리포니아 대학 버클리, 텍사스 A&M 대학, 상하이 자오퉁 대학 연구진이 개발했다. 이 시스템은 라마(Llama), 미스트랄(Mistral), LLaVA 등 다양한 모델을 지원하며, OpenAI의 GPT-4와 같은 API 기반 모델과도 호환된다.

그록-2는 최근 업데이트된 제3자 평가 리더보드인 Lmsys Chatbot Arena에서 세계 2위에 올랐다. 6,686표를 기준으로 1,293점의 아레나 점수를 기록했다. 이는 구글의 제미니-1.5 프로(Gemini-1.5 Pro) 모델과 동점이며, OpenAI의 최신 버전 ChatGPT-4o에 이은 순위다. 그록-2 미니도 최근 개선의 혜택을 받아 5위로 올라섰다. 7,266표를 기준으로 1,268점의 아레나 점수를 기록했다. GPT-4o 미니와 클로드 3.5 소네트(Claude 3.5 Sonnet) 바로 뒤를 따르고 있다.

특히 그록-2는 수학 작업에서 1위를 차지했으며, 어려운 프롬프트, 코딩, 지시 따르기 등 다양한 카테고리에서도 상위권을 유지하고 있다. 바부슈킨은 X에서의 응답을 통해 그록-2 미니의 주요 장점이 향상된 속도라고 밝혔다. 그는 엑스AI가 그록-2 미니의 처리 속도를 더욱 개선할 것이라고 약속했다.

이번 그록-2와 그록-2 미니의 성능 개선은 AI 커뮤니티에서 상당한 주목을 받고 있다. 엑스AI의 지속적인 혁신과 AI 발전 한계를 넓히려는 노력을 보여주는 사례로 평가받고 있다. 엑스AI가 모델을 계속 개선함에 따라 AI 업계는 속도와 정확도 모두에서 더 많은 발전을 기대할 수 있게 됐다.

벤처비트의 기사 원문은 링크를 통해 확인할 수 있다.

관련 콘텐츠 더보기