일론 머스크의 xAI가 개발한 그록(Grok) 모델이 최신 AI 성능 평가에서 68점을 기록하며 1위를 차지했다고 아티피셜 애널리시스(Artificial Analysis)가 발표했다. 아티피셜 애널리시스 인텔리전스 인덱스(Artificial Analysis Intelligence Index) v2.2 평가 결과에 따르면, 그록은 MMLU-Pro, GPQA 다이아몬드, 휴머니티스 라스트 이그잼(Humanity’s Last Exam), 라이브코드벤치(LiveCodeBench), 사이코드(SciCode), AIME, IFBench, AA-LCR 등 8개 평가 항목을 종합한 점수에서 68점을 획득했다.
이는 기존 1위였던 오픈AI(OpenAI)의 o3-mini 모델(67점)과 o4-mini 모델(65점)을 근소한 차이로 앞선 성과다. 제미나이(Gemini) 2.5 프로 모델도 65점으로 공동 3위를 기록했다. 상위권에는 앤트로픽(Anthropic)의 클로드(Claude) 4 소넷 씽킹(Thinking) 모델이 64점으로 5위에 올랐으며, AI 씽킹(AI Thinking) 모델이 59점으로 6위를 차지했다. 딥시크(DeepSeek) R1 모델도 59점으로 동점 6위를 기록했다.
하위권에서는 구글의 제미나이 2.5 플래시 모델이 58점, 제미나이 플래시 익스페리멘탈(Flash Experimental) 0827 모델이 58점을 얻었다. 메타(Meta)의 마그스트라 스몰(Magstra Small) 모델은 36점으로 하위권에 머물렀으며, AWS의 노바 프리미어(Nova Premier) 모델이 35점으로 최하위를 기록했다.
아티피셜 애널리시스는 독립적인 평가 기관으로, 각종 AI 모델의 성능을 객관적으로 비교 분석하는 것으로 업계에서 인정받고 있다.
해당 기사에 인용한 데이터는 아티피셜 애널리시스 웹사이트에서 확인 가능하다.
이미지 출처: Artificial Analysis