메타, AI 모델 ‘매버릭’ 벤치마크 결과 논란…“공개 버전과 달라”

테크크런치(TechCrunch)가 6일(현지 시간) 보도한 내용에 따르면, 메타(Meta)의 최신 AI 모델 벤치마크 결과에 대한 논란이 일고 있다. 메타가 공개 버전과 다른 ‘최적화된’ 버전으로 성능 측정을 진행한 것으로 밝혀졌기 때문이다. 지난 토요일 메타가 출시한 새로운 AI 모델인 매버릭(Maverick)은 인간 평가자들이 모델의 출력을 비교하고 선호도를 선택하는 테스트인 LM 아레나(LM Arena)에서 2위를 기록했다.

그러나 여러 AI 연구자들이 소셜 미디어 X에서 지적한 바에 따르면, 메타가 LM 아레나에 배포한 매버릭 버전은 개발자들에게 널리 제공되는 버전과 차이가 있는 것으로 나타났다. 메타는 발표에서 LM 아레나에 있는 매버릭이 “실험적 채팅 버전”이라고 언급했다. 한편 공식 라마(Llama) 웹사이트의 차트는 메타의 LM 아레나 테스트가 “대화에 최적화된 라마 4 매버릭(Llama 4 Maverick)”을 사용하여 수행되었다고 밝히고 있다.

Okay Llama 4 is def a littled cooked lol, what is this yap city pic.twitter.com/y3GvhbVz65
— Nathan Lambert (@natolambert) April 6, 2025

for some reason, the Llama 4 model in Arena uses a lot more Emojis

on together . ai, it seems better: pic.twitter.com/f74ODX4zTt
— Tech Dev Notes (@techdevnotes) April 6, 2025

테크크런치는 이전에도 다양한, 이유로 LM 아레나가 AI 모델 성능의 가장 신뢰할 수 있는 측정 수단이 아니라고 보도한 바 있다. 하지만 AI 기업들은 일반적으로 LM 아레나에서 더 좋은 점수를 얻기 위해 모델을 사용자 지정하거나 미세 조정하지 않았다. 적어도 그렇게 했다고 인정한 적은 없었다. 모델을 벤치마크에 맞게 조정하고, 이를 공개하지 않은 채 동일한 모델의 ‘기본’ 변형을 출시하는 문제점은 개발자들이 특정 상황에서 모델이 얼마나 잘 수행될지 정확히 예측하기 어렵게 만든다는 것이다. 이는 또한 오해의 소지가 있다. 이상적으로는 벤치마크가 단일 모델의 다양한 작업에 걸친 강점과 약점의 스냅샷을 제공해야 하지만, 현재 벤치마크는 심각하게 불충분한 상태다.

실제로 X의 연구자들은 공개적으로 다운로드 가능한 매버릭과 LM 아레나에서 호스팅되는 모델 간의 행동에 뚜렷한 차이가 있음을 관찰했다. LM 아레나 버전은 많은 이모티콘을 사용하고 매우 장황한 답변을 제공하는 것으로 나타났다. 테크크런치는 이에 대한 의견을 구하기 위해 메타와 LM 아레나를 유지 관리하는 조직인 챗봇 아레나(Chatbot Arena)에 연락했지만, 기사 작성 시점까지 응답을 받지 못했다.

해당 기사 원문은 링크에서 확인할 수 있다.

이미지 출처: 메타

기사는 클로드와 챗gpt를 활용해 작성되었습니다.

메타, AI 모델 ‘매버릭’ 벤치마크 결과 논란…“공개 버전과 달라”

[리얼 캠페인 탐구] “주차 한번에 성공!” 마즈가 AI로 포착한 고객들의 소소한 성취

‘완벽한 AI 기다리다간 망한다’… 경쟁 우위 확보하기 위한 AI 전략은?

수백만 명이 쓰는데 AI는 모른다… 2000개 언어의 ‘디지털 실종’ 충격

챗GPT·제미나이 검색 상위 노출되는 글은 따로 있다? 노출 36% 높이는 AutoGEO의 비밀

“미국 법제화·한국 법안 발의”… 스테이블코인 시장 4년 새 5배 폭증

Highlight

[Q&AI] 2025 롤드컵 개막… AI가 예측한 ‘T1 vs IG’ 경기 결과는?

구글 제미나이 3.0, 이달 22일 공개 임박?… 내부 문서 유출

오픈AI, 스타게이트·엔비디아·AMD 이어 추가 대형 계약 예고

딜로이트가 분석한 2025년 AI 10대 핵심 트렌드

[AI 매터스 뉴스레터 #127] 연휴 동안 놓친 AI 관련 소식 Top…