테크크런치(TechCrunch)가 6일(현지 시간) 보도한 내용에 따르면, 메타(Meta)의 최신 AI 모델 벤치마크 결과에 대한 논란이 일고 있다. 메타가 공개 버전과 다른 ‘최적화된’ 버전으로 성능 측정을 진행한 것으로 밝혀졌기 때문이다. 지난 토요일 메타가 출시한 새로운 AI 모델인 매버릭(Maverick)은 인간 평가자들이 모델의 출력을 비교하고 선호도를 선택하는 테스트인 LM 아레나(LM Arena)에서 2위를 기록했다.
그러나 여러 AI 연구자들이 소셜 미디어 X에서 지적한 바에 따르면, 메타가 LM 아레나에 배포한 매버릭 버전은 개발자들에게 널리 제공되는 버전과 차이가 있는 것으로 나타났다. 메타는 발표에서 LM 아레나에 있는 매버릭이 “실험적 채팅 버전”이라고 언급했다. 한편 공식 라마(Llama) 웹사이트의 차트는 메타의 LM 아레나 테스트가 “대화에 최적화된 라마 4 매버릭(Llama 4 Maverick)”을 사용하여 수행되었다고 밝히고 있다.
테크크런치는 이전에도 다양한, 이유로 LM 아레나가 AI 모델 성능의 가장 신뢰할 수 있는 측정 수단이 아니라고 보도한 바 있다. 하지만 AI 기업들은 일반적으로 LM 아레나에서 더 좋은 점수를 얻기 위해 모델을 사용자 지정하거나 미세 조정하지 않았다. 적어도 그렇게 했다고 인정한 적은 없었다. 모델을 벤치마크에 맞게 조정하고, 이를 공개하지 않은 채 동일한 모델의 ‘기본’ 변형을 출시하는 문제점은 개발자들이 특정 상황에서 모델이 얼마나 잘 수행될지 정확히 예측하기 어렵게 만든다는 것이다. 이는 또한 오해의 소지가 있다. 이상적으로는 벤치마크가 단일 모델의 다양한 작업에 걸친 강점과 약점의 스냅샷을 제공해야 하지만, 현재 벤치마크는 심각하게 불충분한 상태다.
실제로 X의 연구자들은 공개적으로 다운로드 가능한 매버릭과 LM 아레나에서 호스팅되는 모델 간의 행동에 뚜렷한 차이가 있음을 관찰했다. LM 아레나 버전은 많은 이모티콘을 사용하고 매우 장황한 답변을 제공하는 것으로 나타났다. 테크크런치는 이에 대한 의견을 구하기 위해 메타와 LM 아레나를 유지 관리하는 조직인 챗봇 아레나(Chatbot Arena)에 연락했지만, 기사 작성 시점까지 응답을 받지 못했다.
해당 기사 원문은 링크에서 확인할 수 있다.
이미지 출처: 메타
기사는 클로드와 챗gpt를 활용해 작성되었습니다.