Search

SKT, 자체 개발 'AI 거버넌스 포털'로 AI 안전성 강화한다

SKT, 자체 개발 ‘AI 거버넌스 포털’로 AI 안전성…

9월 2, 2025

SK텔레콤이 AI 서비스의 신뢰성과 안전성을 체계적으로 관리하기 위한 사내 ‘AI 거버넌스 포털’을 공식 오픈했다고 2일(한국 시간) 발표했다. 이번에…

오픈AI, GPT-4.1 공개... "지침 이행은 향상됐지만 정렬성 논란"

오픈AI, GPT-4.1 공개 후 논란 지속… “출시작보다 정렬성…

4월 24, 2025

오픈AI(OpenAI)가 새롭게 공개한 GPT-4.1 모델이 지침 따르기에 뛰어나다고 주장했지만, 독립적인 테스트 결과 이전 모델보다 정렬성(alignment)이 떨어진다는 문제가 제기됐다.…

Jailbreaking to Jailbreak

AI가 AI를 해킹하는 시대… 93% 성공률의 새로운 공격…

2월 24, 2025

Jailbreaking to Jailbreak AI가 AI를 공격하는 J2 기법, 약 93%의 놀라운 성공률 달성 AI 학습데이터 제공 기업 스케일AI(Scale…

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming

AI 안전성 높이는 ‘헌법 분류기’ 개발…앤트로픽 연구진, 3000시간…

2월 4, 2025

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming 인공지능 연구기업 앤트로픽(Anthropic)이 대규모 언어모델(LLM)의…

AI 레드팀 – AI 매터스 l AI Matters