오픈AI가 자사 AI 모델들의 안전성 평가 결과를 공개하는 ‘안전성 평가 허브’를 14일(현지 시간) 업데이트했다. 이 허브는 GPT-4.1부터 오픈AI o1까지 다양한 모델의 안전성과 성능을 직접 비교할 수 있게 했다. 이번에 공개된 평가는 네 가지 핵심 영역에 집중했다. 유해 콘텐츠, 탈옥(jailbreak), 환각(hallucination), 지시 체계(instruction hierarchy)가 그것이다.
유해 콘텐츠 평가에서는 대부분의 모델이 표준 거부 테스트에서 0.99점의 높은 점수를 기록했다. 그러나 더 어려운 도전적 거부 평가에서는 오픈AI o4-mini, 오픈AI o3, 오픈AI o1이 0.91~0.92점으로 가장 높은 점수를 받았고, GPT-4.1-mini는 0.71점으로 가장 낮았다. 탈옥 평가에서는 학계 벤치마크인 StrongReject 테스트에서 오픈AI o3과 오픈AI o1이 각각 0.85점과 0.83점으로 최고 성능을 보였다. 반면 GPT-4.1과 GPT-4o-latest는 0.23점과 0.25점으로 취약점을 드러냈다. 인간이 수집한 탈옥 프롬프트 평가에서는 오픈AI o4-mini가 1.00점으로 완벽한 점수를 기록했다.
환각 평가에서는 GPT-4.5가 SimpleQA와 PersonQA 모두에서 각각 0.59점과 0.70점으로 가장 높은 정확도를 보였다. 반면 GPT-4o-mini와 오픈AI o3-mini는 가장 낮은 점수를 받았다. 지시 체계 평가에서는 시스템, 개발자, 사용자 메시지 간 우선순위 충돌 시 모델의 행동을 평가했다. 오픈AI o1이 대부분의 테스트에서 0.85~0.99점으로 최고 성능을 보였고, GPT-4o-mini는 0.31~0.56점으로 가장 낮은 성능을 기록했다.
오픈AI는 이 허브가 자사 시스템의 안전성 성능을 투명하게 공개할 뿐만 아니라, AI 업계 전반의 투명성을 높이기 위한 노력의 일환이라고 밝혔다. 다만 이 평가 결과는 오픈AI에서 사용하는 전체 안전성 지표 중 일부만 보여주는 것이며, 모델의 완전한 안전성 평가를 위해서는 시스템 카드와 준비성 프레임워크 평가 등 다른 자료도 함께 고려해야 한다고 강조했다.
해당 기사의 원문은 링크에서 확인할 수 있다.
이미지 출처: 오픈AI
기사는 클로드와 챗gpt를 활용해 작성되었습니다.