일론 머스크(Elon Musk)의 인공지능 기업 xAI가 9일(현지 시간) 라이브스트림을 통해 차세대 AI 모델 그록-4(Grok-4)와 그록-4 헤비(Grok-4 Heavy)를 공개했다. 이번 발표에서 가장 주목받은 것은 그록-4가 ‘인류의 마지막 시험(Humanity’s Last Exam, HLE)’에서 텍스트 전용 문제의 50% 이상을 해결했다는 점이다.
HLE는 인간이 만든 가장 어려운 시험 중 하나로 여겨지는 벤치마크다. 그록-4는 단일 에이전트로 40%의 문제를 해결했지만, 여러 에이전트가 협력하는 그록-4 헤비 버전에서는 50% 이상의 성과를 달성했다. 머스크는 “대부분의 텍스트 기반 문제에서 인류의 마지막 시험을 그록-4가 해결할 수 있다”고 발표했다. 특히 그록-4 헤비는 여러 AI 에이전트가 동시에 작업하며 결과를 비교하는 방식으로 작동한다. 머스크는 이를 “스터디 그룹과 같다”고 설명하며, “종종 한 에이전트만이 실제 해법을 찾아내지만, 그들이 정보를 공유하면서 최선의 답을 도출한다”고 말했다.

머스크는 이번 발표에서 놀라운 예측을 내놨다. “그록이 늦어도 내년까지, 어쩌면 올해 말까지 실제로 유용한 새로운 기술을 문자 그대로 발견할 것으로 예상한다”며 “내년에는 새로운 물리학을 발견할 수도 있고, 2년 내에는 거의 확실하다”고 단언했다.
현재 그록-4는 상당히 원시적인 도구만 사용하고 있지만, 올해 말까지 기업들이 사용하는 수준의 고급 도구들을 제공할 예정이다. 테슬라(Tesla)나 스페이스X(SpaceX)에서 사용하는 유한요소해석(finite element analysis)이나 전산유체역학(computational fluid dynamics) 같은 도구들이다. 머스크는 “시뮬레이션이 현실에 너무 가까워서, 테스트가 시뮬레이션과 맞지 않으면 테스트 제품이 잘못됐다고 가정할 정도”라고 설명했다.
그록-4는 기존 AI 모델들을 압도하는 성능을 보여줬다. GPQA(PhD 수준 문제), AIME 25(미국 수학 초청 시험), HMMT(하버드-MIT 수학 토너먼트), USAMO(미국 수학 올림피아드) 등 주요 벤치마크에서 모두 2위 모델과 큰 격차로 1위를 차지했다. 특히 AIME 25에서는 그록-4 헤비가 만점을 기록했다. xAI는 그록-4와 함께 전용 코딩 모델도 공개할 예정이다. 팀은 현재 빠르면서도 똑똑한 전문 코딩 모델을 개발 중이며, 몇 주 내에 공개할 계획이라고 밝혔다.
음성 기능도 크게 개선됐다. 기존 대비 응답 속도가 절반으로 단축됐고, 5가지 새로운 음성이 추가됐다. 영화 예고편 목소리의 ‘살(Sal)’과 감정 표현이 풍부한 영국 억양의 ‘이브(Eve)’ 등이 포함됐다. 지난 8주 동안 활성 사용자가 10배 증가했다고 발표했다.
그록-4는 API를 통해서도 제공된다. ArcAGI 벤치마크에서 15.8%의 정확도로 2위인 클로드-4 오푸스(Claude-4 Opus)의 2배 성능을 보였다. 팔로알토의 ARC 연구소는 이미 그록-4를 생물의학 연구에 활용해 수백만 개의 실험 로그를 분석하고 있다고 밝혔다.
게임 개발 분야에서도 주목할 만한 성과가 나왔다. 한 개발자가 그록-4를 이용해 4시간 만에 1인칭 슈팅 게임을 제작했다. 머스크는 “올해 안에 처음으로 시청 가능한 AI 영화가, 내년에는 첫 번째 AI 비디오 게임이 나올 것”이라고 예측했다.
xAI는 10만 개의 GB200 GPU로 비디오 생성 모델 훈련을 3-4주 내에 시작할 예정이라고 발표했다. 머스크는 “픽셀 입력, 픽셀 출력이어야 한다”며 “X 플랫폼에서 무한 스크롤 콘텐츠를 시청할 뿐만 아니라 직접 개입해 자신만의 모험을 만들 수 있는 세상을 상상해 보라”고 말했다.
현재 그록-4의 가장 큰 약점은 멀티모달 기능이라고 인정했다. 머스크는 “그록이 효과적으로 세상을 바라보며 유리를 통해 눈을 찌푸리고 모든 흐릿한 특징을 보려고 하는 것과 같다”고 표현했다. 이는 몇 주 내에 완료될 7세대 기반 모델에서 크게 개선될 예정이다.
그록-4는 현재 슈퍼그록 헤비(Super Grok Heavy) 요금제를 통해 이용할 수 있다. 사용자들은 여러 그록 연구 에이전트의 작업 관리자가 되어 시간을 절약하고 더 똑똑해질 수 있다고 xAI는 설명했다.
해당 기사에 인용된 라이브 스트림은 XAI의 X에서 확인 가능하다.
이미지 출처: xAI 라이브스트림 화면 캡쳐