오픈AI, 개발자가 직접 안전 정책 설정 가능한 오픈소스 AI 모델 공개

오픈AI(OpenAI)가 개발자들이 직접 안전 정책을 설정할 수 있는 오픈소스 AI 모델 ‘gpt-oss-safeguard’를 29일(현지 시각) 공개했다. 오픈AI에 따르면 이 모델은 120억 파라미터와 20억 파라미터 두 가지 버전으로 제공되며, 아파치 2.0(Apache 2.0) 라이선스로 배포돼 누구나 자유롭게 사용할 수 있다. 허깅페이스(Hugging Face)에서 다운로드할 수 있다.

gpt-oss-safeguard의 핵심은 개발자가 제공한 정책을 추론 과정에서 직접 해석한다는 점이다. 기존 안전 분류기들이 수천 개의 사전 레이블링된 데이터로 학습해야 했던 것과 달리, 이 모델은 개발자가 작성한 정책을 실시간으로 적용할 수 있다. 예를 들어 게임 포럼은 치팅 관련 게시물을 걸러내는 자체 정책을, 쇼핑몰은 가짜 리뷰를 판별하는 맞춤 정책을 각각 적용할 수 있다. 모델은 사고 과정을 함께 제공해 개발자가 판단 근거를 확인할 수 있으며, 정책 수정도 즉시 반영된다.

오픈AI는 이 기술을 내부적으로 ‘세이프티 리즈너(Safety Reasoner)’라는 이름으로 먼저 사용해 왔다. 실제로 최근 출시한 일부 모델에서는 전체 컴퓨팅 자원의 최대 16%를 안전 추론에 할당했다고 밝혔다. 다만 오픈AI는 대량의 고품질 데이터로 학습된 전용 분류기가 여전히 더 높은 성능을 낼 수 있으며, 컴퓨팅 자원이 많이 소요된다는 한계도 인정했다.

해당 모델에 대한 자세한 사항은 오픈AI 뉴스룸에서 확인 가능하다.

이미지 출처: 오픈AI