• Home
  • News
  • 구글 vs 앤트로픽, AI 벤치마크 경쟁 ‘포켓몬’까지 확산… “공정한 비교가 가능할까?”

구글 vs 앤트로픽, AI 벤치마크 경쟁 ‘포켓몬’까지 확산… “공정한 비교가 가능할까?”

구글 vs 앤트로픽, AI 벤치마크 경쟁 ‘포켓몬’까지 확산... "공정한 비교가 가능할까?"
이미지 출처: @Jush21e8 X 계정(포켓몬 벤치마크 화면 캡쳐)

구글(Google)의 제미나이(Gemini)와 앤트로픽(Anthropic)의 클로드(Claude) AI 모델이 포켓몬 게임에서 경쟁하고 있다. 이처럼 AI 벤치마킹 논쟁은 이제 게임 세계까지 확장됐다. 지난주 X에서 한 게시물이 바이럴 현상을 일으켰다. 해당 게시물은 구글의 제미나이 모델이 앤트로픽의 주력 모델인 클로드를 포켓몬 비디오 게임 트릴로지에서 앞섰다고 주장했다. 제미나이는 개발자의 트위치(Twitch) 스트림에서 ‘라벤더 타운’까지 도달한 반면, 클로드는 2월 말 기준 ‘문트 문’에 머물러 있었다.


테크크런치가 14일(현지 시간) 보도한 내용에 따르면, 이 게시물이 언급하지 않은 중요한 사실이 있었다. 제미나이가 유리한 조건에서 게임을 진행했다는 점이다. 레딧 사용자들이 지적한 바에 따르면, 제미나이 스트림을 관리하는 개발자는 모델이 나무와 같은 게임 내 ‘타일’을 식별하는 데 도움이 되는 맞춤형 미니맵을 구축했다. 이로 인해 제미나이가 게임 플레이 결정을 내리기 전에 스크린샷을 분석할 필요성이 줄어들었다.

물론 포켓몬은 반(半)정도로만 진지한 AI 벤치마크다. 이것이 모델 성능을 평가하는 매우 유익한 테스트라고 주장하는 사람은 거의 없다. 그러나 이는 벤치마크의 다양한 구현 방식이 결과에 어떤 영향을 미칠 수 있는지 보여주는 교훈적 사례다.

앤트로픽은 최근 출시한 앤트로픽 3.7 소넷(Anthropic 3.7 Sonnet) 모델에 대해 모델의 코딩 능력을 평가하도록 설계된 ‘SWE-bench Verified’ 벤치마크에서 두 가지 점수를 보고했다. 클로드 3.7 소넷은 SWE-bench Verified에서 62.3%의 정확도를 달성했지만, 앤트로픽이 개발한 “맞춤형 스캐폴드”를 사용했을 때는 70.3%의 정확도를 기록했다. 최근에는 메타(Meta)가 자사의 최신 모델인 라마 4 매버릭(Llama 4 Maverick)의 버전을 특정 벤치마크인 LM Arena에서 우수한 성능을 발휘하도록 미세 조정해 논란이 일었다. 같은 평가에서 원래 버전의 모델은 훨씬 낮은 점수를 기록했다.

포켓몬을 포함한 AI 벤치마크가 이미 불완전한 측정 방식인 상황에서, 맞춤형 및 비표준 구현은 상황을 더욱 혼란스럽게 만들 위험이 있다. 즉, 모델이 출시될 때마다 이를 비교하는 것이 더 쉬워질 것 같지는 않다.

해당 기사의 원문은 링크에서 확인할 수 있다.

이미지 출처: @Jush21e8 X 계정(포켓몬 벤치마크 화면 캡쳐)

기사는 클로드와 챗gpt를 활용해 작성되었습니다.




구글 vs 앤트로픽, AI 벤치마크 경쟁 ‘포켓몬’까지 확산… “공정한 비교가 가능할까?” – AI 매터스