• Home
  • News
  • 메타, 라마 4 벤치마크 점수 조작 혐의 부인

메타, 라마 4 벤치마크 점수 조작 혐의 부인

메타, 라마 4 벤치마크 점수 인위적 조작 혐의 부인
이미지 출처: 메타

테크크런치가 7일(현지 시간) 보도한 내용에 따르면, 메타(Meta)의 생성형 AI 부문 부사장인 아흐마드 알-달레(Ahmad Al-Dahle)가 회사가 새로운 AI 모델의 약점을 숨기면서 특정 벤치마크에서 좋은 성과를 보이도록 조정했다는 소문을 공식 부인했다. 알-달레는 8일(현지 시간) 자신의 공식 X에 올린 게시물에서 메타가 라마 4 매버릭(Llama 4 Maverick)과 라마 4 스카우트(Llama 4 Scout) 모델을 “테스트 세트(test sets)”에 대해 훈련시켰다는 주장은 “단순히 사실이 아니다”라고 밝혔다.



AI 벤치마크에서 테스트 세트는 모델이 훈련된 후 성능을 평가하는 데 사용되는 데이터 모음이다. 테스트 세트로 훈련을 하게 되면 모델의 벤치마크 점수가 인위적으로 부풀려져 실제보다 더 유능한 것처럼 보일 수 있다. 지난 주말, 메타가 새 모델의 벤치마크 결과를 인위적으로 높였다는 근거 없는 소문이 X와 레딧(Reddit)에서 퍼지기 시작했다. 이 소문은 중국 소셜 미디어 사이트에 회사의 벤치마킹 관행에 항의해 메타를 사임했다고 주장하는 사용자의 게시물에서 시작된 것으로 보인다.

매버릭과 스카우트가 특정 작업에서 성능이 좋지 않다는 보고와 함께, 메타가 벤치마크 LM 아레나(LM Arena)에서 더 나은 점수를 얻기 위해 실험적이고 미공개 버전의 매버릭을 사용한 결정이 이 소문에 불을 지폈다. X의 연구자들은 공개적으로 다운로드 가능한 매버릭과 LM 아레나에서 호스팅되는 모델 간에 뚜렷한 행동 차이를 관찰했다.

알-달레는 일부 사용자들이 다양한 클라우드 제공업체에서 호스팅하는 매버릭과 스카우트 모델에서 “혼합된 품질”을 경험하고 있다는 점을 인정했다. “모델이 준비되자마자 배포했기 때문에, 모든 공개 구현이 조정되는 데 며칠이 걸릴 것으로 예상합니다,” 알-달레는 말했다. “우리는 계속해서 버그 수정 작업을 진행하고 파트너를 온보딩할 것입니다.”

메타는 최근 라마 4 시리즈를 출시했으며, 매버릭과 스카우트는 이 시리즈의 주요 모델이다. 이 모델들은 오픈소스로 공개되어 다양한 클라우드 제공업체를 통해 사용할 수 있게 되었다. 메타의 AI 모델은 오픈AI(OpenAI)의 GPT나 앤트로픽(Anthropic)의 클로드(Claude)와 같은 타 기업의 모델들과 경쟁하고 있다.

벤치마크 점수는 AI 모델의 성능을 평가하는 중요한 지표로, 특히 기업들이 자사 모델의 우수성을 홍보하는 데 자주 활용된다. 그러나 벤치마크 결과에 대한 신뢰성 문제는 AI 업계에서 계속해서 제기되고 있는 중요한 이슈이다.

해당 기사 원문은 링크에서 확인할 수 있다.

이미지 출처: 메타

기사는 클로드와 챗gpt를 활용해 작성되었습니다.




메타, 라마 4 벤치마크 점수 조작 혐의 부인 – AI 매터스