카카오가 생성형 AI의 안전성과 신뢰성을 검증하는 AI 가드레일 모델 ‘카나나 세이프가드(Kanana Safeguard)’를 개발해 국내 기업 최초로 오픈소스로 공개했다고 27일(한국 시간) 밝혔다. 생성형 AI 서비스 확산과 함께 유해 콘텐츠 위험성에 대한 사회적 우려가 커지는 가운데, 카카오는 이를 해결하기 위한 기술적 장치로 카나나 세이프가드를 개발했다. 이 모델은 카카오가 자체 개발한 언어모델 ‘카나나(Kanana)’를 기반으로 하며, 한국어와 한국 문화를 반영한 데이터셋을 활용해 한국어 특화 성능을 보유한다.
카카오는 총 3가지 모델을 허깅페이스(Hugging Face)를 통해 공개했다. 첫 번째는 증오, 괴롭힘, 성적 콘텐츠 등 유해성을 탐지하는 ‘카나나 세이프가드’, 두 번째는 개인정보나 지적재산권 등 법적 주의가 필요한 요청을 탐지하는 ‘카나나 세이프가드-사이렌(Siren)’, 세 번째는 AI 서비스 악용 공격을 탐지하는 ‘카나나 세이프가드-프롬프트(Prompt)’다.
모델의 정밀도와 재현율을 평가하는 F1 스코어 기준으로 평가한 결과, 한국어 성능에서 글로벌 모델 이상의 성과를 기록했다고 카카오는 설명했다. 카카오는 안전한 AI 생태계 구축에 기여하고자 상업적 이용과 수정, 재배포가 자유로운 아파치2.0(Apache 2.0) 라이선스를 적용했다. 향후 지속적인 업데이트를 통해 모델을 고도화할 예정이다.
해당 기사의 원문은 링크에서 확인할 수 있다.