재일브레이크 방지

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming

AI 안전성 높이는 ‘헌법 분류기’ 개발…앤트로픽 연구진, 3000시간 해킹 시도 막아내

2월 4, 2025

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming 인공지능 연구기업 앤트로픽(Anthropic)이 대규모 언어모델(LLM)의 안전성을 획기적으로 강화하는 기술을 개발했다. 앤트로픽의…

재일브레이크 방지

AI 안전성 높이는 ‘헌법 분류기’ 개발…앤트로픽 연구진, 3000시간 해킹 시도 막아내

Trending

구글 번역앱에 ‘동시통역 헤드폰’ 기능 추가… 70개…

오픈AI, 4배 빠른 신형 ‘챗GPT 이미지’ 공개

[AI 트렌드] 연말 모임 사진을 특별하게! 제미나이…