메타(Meta)가 지난 주 초 실험적이고 공개되지 않은 라마 4 매버릭(Llama 4 Maverick) 모델 버전을 사용하여 크라우드소싱 벤치마크인 LM 아레나(LM Arena)에서 높은 점수를 얻어 논란에 휩싸였다. 이 사건으로 LM 아레나 관리자들은 사과하고 정책을 변경한 후 수정되지 않은 기본 매버릭 모델의 점수를 다시 매겼다. 결과는 예상보다 좋지 않았다.
테크크런치가 11일(현지 시간) 보도한 내용에 따르면, 수정되지 않은 매버릭 모델인 “Llama-4-Maverick-17B-128E-Instruct”는 금요일 기준으로 오픈AI(OpenAI)의 GPT-4o, 앤트로픽(Anthropic)의 클로드 3.5 소넷(Claude 3.5 Sonnet), 구글(Google)의 제미나이 1.5 프로(Gemini 1.5 Pro) 등의 모델보다 낮은 순위를 기록했다. 이들 대부분은 몇 달 전에 출시된 모델들이다. “LM 아레나에 라마 4가 속임수를 썼다는 것이 밝혀진 후 정식 버전이 추가되었지만, 아마 여러분은 이를 보지 못했을 것이다. 32위로 스크롤을 내려야 볼 수 있기 때문이다”라고 한 X 사용자가 지적했다.
메타의 실험적 매버릭 모델인 ‘Llama-4-Maverick-03-26-Experimental’은 지난 토요일 발표된 차트에서 회사 측이 설명한 대로 “대화에 최적화”되었다. 이러한 최적화는 분명히 인간 평가자들이 모델의 출력을 비교하고 어떤 것을 선호하는지 선택하는 LM 아레나에 유리하게 작용했다. 이전에 언급했듯이, 여러 이유로 LM 아레나는 AI 모델 성능의 가장 신뢰할 수 있는 측정 도구가 아니었다. 그럼에도 불구하고, 벤치마크에 맞춰 모델을 조정하는 것은 오해의 소지가 있을 뿐만 아니라 개발자들이 다양한 상황에서 모델이 얼마나 잘 작동할지 정확히 예측하기 어렵게 만든다.
테크크런치(TechCrunch)와의 대화에서 메타 대변인은 회사가 “모든 유형의 맞춤형 변형 모델”을 실험한다고 밝혔다. “‘Llama-4-Maverick-03-26-Experimental’은 채팅에 최적화된 버전으로, LM 아레나에서도 좋은 성능을 보였다”라고 대변인은 말했다. “이제 우리는 오픈소스 버전을 출시했으며, 개발자들이 자신의 사용 사례에 맞게 라마 4를 어떻게 커스터마이즈할지 지켜볼 것이다. 그들이 무엇을 만들어낼지 기대하고 있으며 지속적인 피드백을 기대한다.”
메타의 이번 사건은 AI 모델 평가와 벤치마킹의 투명성에 관한 중요한 질문을 제기하며, 실제 사용 환경에서의 성능과 특정 벤치마크에 최적화된 성능 사이의 차이를 보여주는 사례로 주목받고 있다.
해당 기사의 원문은 링크에서 확인할 수 있다.
이미지 출처: 메타
기사는 클로드와 챗gpt를 활용해 작성되었습니다.