오픈AI(OpenAI)가 10일(현지 시간) 자사 웹사이트를 통해 인공지능의 웹 검색 능력을 평가하는 새로운 벤치마크 ‘BrowseComp’를 오픈소스로 공개했다. 이 벤치마크는 AI가 인터넷에서 찾기 어려운 정보를 발견하는 능력을 측정하는 도구이다. 오픈AI에 따르면, 기존의 SimpleQA 같은 벤치마크는 기본적인 사실 검색 능력만 측정했으며, 이미 GPT-4o와 같은 브라우징 기능이 있는 모델들에 의해 포화 상태에 도달했다. 이에 대응해 1,266개의 도전적인 문제로 구성된 BrowseComp(Browsing Competition의 약자)를 개발했다.
BrowseComp는 답변이 짧고 단일 정답만 있는 문제에 초점을 맞추었다. 문제의 특징은 몇 번의 검색으로 정답을 확인하기는 쉽지만, 정답을 찾아내기는 매우 어렵다는 점이다. 인간 훈련자도 29.2%의 문제만 해결할 수 있었으며, 많은 문제는 2~3시간의 연구가 필요했다. 이 벤치마크는 찾기 어렵지만 검증은 쉬운 “검증 비대칭성”을 가진 문제들로 구성되어 있다.
오픈AI의 다양한 모델을 평가한 결과, GPT-4o는 0.6%, GPT-4o 브라우징 기능 포함 모델은 1.9%, GPT-4.5는 0.9%, 오픈AI o1은 9.9%의 정확도를 보였다. 가장 높은 성능을 보인 딥 리서치(Deep Research) 모델은 51.5%의 정확도를 달성했는데, 이 모델은 웹 검색을 위해 특별히 훈련된 에이전트로 문제의 약 절반을 해결했다.
테스트 시간에 사용된 컴퓨팅 양이 증가할수록 BrowseComp 성능이 향상되는 것으로 나타났다. 또한 각 문제를 여러 번 시도하고 최상의 답변을 선택하는 전략인 다수결 투표, 가중 투표, 베스트-오브-N을 사용했을 때 단일 시도보다 15-25% 성능이 향상되었다. 이 중에서 베스트-오브-N 방식이 가장 높은 정확도를 달성했다.
오픈AI는 BrowseComp를 통해 더 신뢰할 수 있고 안정적인 AI 연구를 촉진하고자 한다. 이 벤치마크는 일반적인 웹 검색에 대한 성능이 아닌, 찾기 어려운 특정 정보를 발견하는 능력을 측정하는 데 초점을 맞추고 있다.
해당 발표에 대한 자세한 사항은 링크에서 확인할 수 있다.
이미지 출처: 오픈AI
기사는 클로드와 챗gpt를 활용해 작성되었습니다.