AI 탈옥 - AI매터스

AI 탈옥

Next-generation Constitutional Classifiers: More efficient protection against universal jailbreaks

“AI 보안 강화했더니 비용은 40분의 1로”… 앤트로픽, 탈옥 방어 신기술 공개

1월 12, 2026

AI 기업 앤트로픽이 인공지능 모델의 보안을 대폭 강화하면서도 운영 비용을 40분의 1 수준으로 줄인 새로운 기술을 공개했다. 이번 기술은 AI가 위험한 정보를 제공하지 못하도록…

Adversarial versification in portuguese as a jailbreak operator in LLMs

“핵무기 만드는 법 알려줘” 거절하던 AI, 시(時)로 바꾸니 대답해준다

12월 19, 2025

인공지능(AI)의 보안 시스템이 시(詩) 형태의 질문 앞에서 무력화된다는 연구 논문이 발표됐다. 이탈리아 사피엔자 대학과 DexAI의 이카로 연구소가 발표한 논문에 따르면, 평소에는 거부하던 위험한 질문도…

딥시크 R1, 주요 AI 모델 중 '탈옥' 취약성 가장 높아

딥시크 R1, 주요 AI 모델 중 ‘탈옥’ 취약성 가장 높아

2월 10, 2025

월스트리트저널(Wall Street Journal)이 9일(현지 시간) 보도한 내용에 따르면, 실리콘밸리와 월가를 뒤흔든 중국의 AI 기업 딥시크의 최신 모델이 생체무기 공격 계획이나 청소년 자해 조장 캠페인과…

1
2
3

Trending

"돈은 관심 없다"…오픈클로 개발자, 저커버그 제안 거절하고 알트만 택한 이유

“돈은 관심 없다”…오픈클로 개발자, 저커버그 제안 거절하고…

이종철 수석 에디터 2월 20, 2026

구글, 제미나이 3.1 Pro 출시…추론 성능 전작 대비 2배 이상 향상

구글, 제미나이 3.1 Pro 출시…추론 성능 전작…

이종철 수석 에디터 2월 20, 2026

구글(Google) 제미나이(Gemini) 앱, AI 음악 생성 기능 품었다…"텍스트 한 줄이나 폰 앨범 동영상으로 30초 트랙을”

구글(Google) 제미나이(Gemini) 앱, AI 음악 생성 기능…

이종철 수석 에디터 2월 20, 2026

AI 탈옥 - AI매터스