AI 레드팀

xAI, 그록 훈련팀 500명 해고… ‘전문 AI 튜터’ 확장에 집중

9월 15, 2025

일론 머스크의 인공지능 스타트업 xAI가 그록(Grok) 챗봇 개발 핵심 팀 500여 명을 해고했다. 비즈니스 인사이더가 13일(현지 시각) 보도한 내용에 따르면, xAI는 지난주 금요일 밤…

SKT, 자체 개발 ‘AI 거버넌스 포털’로 AI 안전성 강화한다

9월 2, 2025

SK텔레콤이 AI 서비스의 신뢰성과 안전성을 체계적으로 관리하기 위한 사내 ‘AI 거버넌스 포털’을 공식 오픈했다고 2일(한국 시간) 발표했다. 이번에 구축한 ‘AI 거버넌스 포털’은 SK텔레콤이 자체적으로…

오픈AI, GPT-4.1 공개... "지침 이행은 향상됐지만 정렬성 논란"

오픈AI, GPT-4.1 공개 후 논란 지속… “출시작보다 정렬성 떨어져”

4월 24, 2025

오픈AI(OpenAI)가 새롭게 공개한 GPT-4.1 모델이 지침 따르기에 뛰어나다고 주장했지만, 독립적인 테스트 결과 이전 모델보다 정렬성(alignment)이 떨어진다는 문제가 제기됐다. 테크크런치(TechCrunch)가 23일(현지 시간) 보도한 내용에 따르면,…

AI가 AI를 해킹하는 시대… 93% 성공률의 새로운 공격 기법 등장

2월 24, 2025

Jailbreaking to Jailbreak AI가 AI를 공격하는 J2 기법, 약 93%의 놀라운 성공률 달성 AI 학습데이터 제공 기업 스케일AI(Scale AI)의 연구에 따르면, 대형 언어모델(LLM)의 보안…

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming

AI 안전성 높이는 ‘헌법 분류기’ 개발…앤트로픽 연구진, 3000시간 해킹 시도 막아내

2월 4, 2025

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming 인공지능 연구기업 앤트로픽(Anthropic)이 대규모 언어모델(LLM)의 안전성을 획기적으로 강화하는 기술을 개발했다. 앤트로픽의…