오픈AI, AI 모델 안전성 평가 결과 공개… 유해 콘텐츠 및 환각 등 결과 비교 가능

오픈AI가 자사 AI 모델들의 안전성 평가 결과를 공개하는 ‘안전성 평가 허브’를 14일(현지 시간) 업데이트했다. 이 허브는 GPT-4.1부터 오픈AI o1까지 다양한 모델의 안전성과 성능을 직접 비교할 수 있게 했다. 이번에 공개된 평가는 네 가지 핵심 영역에 집중했다. 유해 콘텐츠, 탈옥(jailbreak), 환각(hallucination), 지시 체계(instruction hierarchy)가 그것이다.

유해 콘텐츠 평가에서는 대부분의 모델이 표준 거부 테스트에서 0.99점의 높은 점수를 기록했다. 그러나 더 어려운 도전적 거부 평가에서는 오픈AI o4-mini, 오픈AI o3, 오픈AI o1이 0.91~0.92점으로 가장 높은 점수를 받았고, GPT-4.1-mini는 0.71점으로 가장 낮았다. 탈옥 평가에서는 학계 벤치마크인 StrongReject 테스트에서 오픈AI o3과 오픈AI o1이 각각 0.85점과 0.83점으로 최고 성능을 보였다. 반면 GPT-4.1과 GPT-4o-latest는 0.23점과 0.25점으로 취약점을 드러냈다. 인간이 수집한 탈옥 프롬프트 평가에서는 오픈AI o4-mini가 1.00점으로 완벽한 점수를 기록했다.

환각 평가에서는 GPT-4.5가 SimpleQA와 PersonQA 모두에서 각각 0.59점과 0.70점으로 가장 높은 정확도를 보였다. 반면 GPT-4o-mini와 오픈AI o3-mini는 가장 낮은 점수를 받았다. 지시 체계 평가에서는 시스템, 개발자, 사용자 메시지 간 우선순위 충돌 시 모델의 행동을 평가했다. 오픈AI o1이 대부분의 테스트에서 0.85~0.99점으로 최고 성능을 보였고, GPT-4o-mini는 0.31~0.56점으로 가장 낮은 성능을 기록했다.

오픈AI는 이 허브가 자사 시스템의 안전성 성능을 투명하게 공개할 뿐만 아니라, AI 업계 전반의 투명성을 높이기 위한 노력의 일환이라고 밝혔다. 다만 이 평가 결과는 오픈AI에서 사용하는 전체 안전성 지표 중 일부만 보여주는 것이며, 모델의 완전한 안전성 평가를 위해서는 시스템 카드와 준비성 프레임워크 평가 등 다른 자료도 함께 고려해야 한다고 강조했다.

해당 기사의 원문은 링크에서 확인할 수 있다.

이미지 출처: 오픈AI

기사는 클로드와 챗gpt를 활용해 작성되었습니다.

오픈AI, AI 모델 안전성 평가 결과 공개… 유해 콘텐츠 및 환각 등 결과 비교 가능

하버드 경영대학원, AI로 학생 과제 평가한다

허깅페이스 공동창업자 “현재 AI 모델로는 과학적 특이점 돌파 불가능하다”

캘리포니아, AI 안전 공개 의무화 법안 통과…빅테크 겨냥

[AI 매터스 뉴스레터 #123] 오픈AI는 ‘소라 2’를 왜 iOS부터 풀었나… 모바일 퍼스트 전략의 속내

솔트웨어, AWS 파트너사로 ‘AI x 인더스트리 위크’ 참가… 글로벌 시장 공략 본격화

Highlight

오픈AI는 ‘소라 2’를 왜 iOS부터 풀었나… 모바일 퍼스트 전략의 속내

美 직장인 4명 중 1명, AI에 민감정보 무분별 입력… “보안 사각지대…

오픈AI 소라2 초대 코드, 이베이서 되팔기 열풍… 출시 직후 앱 스토어…

AI ‘바이브 코딩’ 열풍 벌써 식었나… 주요 서비스 트래픽 급감

AI 쓰면 시간 절약? 직장인 77% “오히려 일만 늘었다”