AI 공격 방어

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming

AI 안전성 높이는 ‘헌법 분류기’ 개발…앤트로픽 연구진, 3000시간 해킹 시도 막아내

2월 4, 2025

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming 인공지능 연구기업 앤트로픽(Anthropic)이 대규모 언어모델(LLM)의 안전성을 획기적으로 강화하는 기술을 개발했다. 앤트로픽의…

AI 공격 방어

AI 안전성 높이는 ‘헌법 분류기’ 개발…앤트로픽 연구진, 3000시간 해킹 시도 막아내

Trending

“세상을 바꾸고 싶다”…오픈클로 창업자, 오픈AI(OpenAI) 합류 선언

“돈은 관심 없다”…오픈클로 개발자, 저커버그 제안 거절하고…

앤트로픽 새 AI 모델 ‘클로드 소넷 4.6’…