오픈AI(OpenAI)의 o3 AI 모델에 대한 자체 벤치마크 결과와 제3자 벤치마크 결과 간의 불일치가 회사의 투명성과 모델 테스트 관행에 대한 의문을 제기하고 있다. 테크크런치가 20일(현지 시간) 보도한 내용에 따르면, 지난해 12월, 오픈AI가 o3를 공개했을 때, 회사는 이 모델이 도전적인 수학 문제 세트인 프론티어매스(FrontierMath)의 질문 중 약 25% 이상을 답할 수 있다고 주장했다. 이 점수는 경쟁자들을 압도했는데, 그 다음으로 좋은 성능의 모델도 프론티어매스 문제의 약 2%만 정확하게 답할 수 있었다.
테크크런치에 따르면, “오늘날 시장에 나와 있는 모든 제품은 프론티어매스에서 2% 미만의 성능을 보이고 있습니다,” 라고 오픈AI의 마크 첸(Mark Chen) 최고 연구 책임자가 라이브스트림 중에 말했다. “우리는 o3를 적극적인 테스트 환경에서 내부적으로 테스트한 결과, 25% 이상의 성능을 달성할 수 있었습니다.” 그러나 밝혀진 바에 따르면, 이 수치는 지난주 오픈AI가 공개적으로 출시한 모델보다 더 많은 컴퓨팅 파워를 갖춘 o3 버전으로 달성한 상한선인 것으로 보인다.
프론티어매스를 개발한 연구 기관 에포크 AI(Epoch AI)는 금요일에 o3에 대한 독립적인 벤치마크 테스트 결과를 발표했다. 에포크는 o3가 약 10%의 점수를 기록했으며, 이는 오픈AI가 주장한 가장 높은 점수보다 훨씬 낮았다. 에포크 AI에 따르면, “우리 결과와 오픈AI의 결과 차이는 오픈AI가 더 강력한 내부 스캐폴드로 평가하거나, 더 많은 테스트 타임 컴퓨팅을 사용했거나, 또는 프론티어매스의 다른 부분집합(frontiermath-2024-11-26의 180개 문제 대 frontiermath-2025-02-28-private의 290개 문제)에서 테스트를 진행했기 때문일 수 있습니다.”
o3의 사전 출시 버전을 테스트한 기관인 ARC 상 재단(ARC Prize Foundation)의 X 포스트에 따르면, 공개된 o3 모델은 “채팅/제품 사용에 최적화된 다른 모델”이라고 하며, 이는 에포크의 보고서를 뒷받침한다. ARC 상 재단이 밝히길, “출시된 모든 o3 컴퓨팅 티어는 우리가 벤치마크한 버전보다 작습니다.” 일반적으로 더 큰 컴퓨팅 티어는 더 나은 벤치마크 점수를 달성할 것으로 예상된다.
오픈AI의 기술 스태프 멤버인 웬다 저우(Wenda Zhou)는 지난주 라이브스트림에서 현재 운영 중인 o3가 12월에 시연된 o3 버전보다 “실제 사용 사례”와 속도에 “더 최적화되어 있다”고 말했다. 그 결과, 벤치마크 “차이”가 나타날 수 있다고 덧붙였다. 웬다 저우에 따르면, “우리는 모델을 더 비용 효율적이고 일반적으로 더 유용하게 만들기 위해 최적화를 진행했습니다. 우리는 여전히 이것이 훨씬 더 나은 모델이라고 생각합니다. 답변을 요청할 때 오래 기다릴 필요가 없으며, 이는 이러한 유형의 모델에서 실제로 중요한 부분입니다.”
공개 출시된 o3가 오픈AI의 테스트 약속에 미치지 못한다는 사실은 다소 의미가 없을 수 있다. 왜냐하면 회사의 o3-mini-high 및 o4-mini 모델이 프론티어매스에서 o3보다 더 나은 성능을 보이고 있으며, 오픈AI는 향후 몇 주 안에 더 강력한 o3 변형인 o3-pro를 선보일 계획이기 때문이다.
그러나 이는 AI 벤치마크, 특히 판매할 서비스가 있는 회사의 벤치마크를 액면 그대로 받아들이지 않는 것이 좋다는 또 다른 교훈이다. 벤치마크 “논란”은 벤더들이 새로운 모델로 헤드라인과 마인드셰어를 차지하기 위해 경쟁함에 따라 AI 산업에서 흔한 일이 되고 있다. 1월에는 에포크가 오픈AI가 o3를 발표한 후까지 오픈AI로부터의 자금 지원을 공개하지 않아 비판을 받았다. 프론티어매스에 기여한 많은 학자들은 오픈AI의 관여가 공개될 때까지 이에 대해 통보받지 못했다.
최근에는 일론 머스크(Elon Musk)의 xAI가 최신 AI 모델인 그록 3(Grok 3)에 대해 오해의 소지가 있는 벤치마크 차트를 게시했다는 비난을 받았다. 이번 달에는 메타(Meta)가 개발자들에게 제공한 모델과 다른 버전의 모델에 대한 벤치마크 점수를 홍보했다고 인정했다. 이 사례는 AI 기업들의 투명성 문제와 벤치마크 관행에 대한 중요한 문제를 제기하며, 소비자와 개발자들이 AI 모델 성능 주장을 평가할 때 주의를 기울여야 함을 상기시킨다.
해당 기사의 원문은 링크에서 확인할 수 있다.
이미지 출처: 오픈AI
기사는 클로드와 챗gpt를 활용해 작성되었습니다.