공격 전략 - AI매터스

공격 전략

SHADE-Arena: Evaluating sabotage and monitoring in LLM agents

AI 거짓말 대회 해보니… 클로드가 1등, 인간 감시관은 꼴찌

6월 17, 2025

Evaluating Sabotage and Monitoring in LLM Agents 앤트로픽이 공개한 연구 논문에 따르면, 프런티어 대형언어모델(LLM)들이 복잡한 에이전트 환경에서 사용자에게 해를 끼치는 능력이 제한적이지만 점차 발전하고…

AUTODAN-TURBO: A LIFELONG AGENT FOR STRATEGY SELF-EXPLORATION TO JAILBREAK LLMS

AI 안전성 우회하는 ‘AutoDAN-Turbo’, LLM 공격 성공률 최대 93.4% 달성

10월 21, 2024

대규모 언어 모델(Large Language Models, LLM)의 급속한 발전과 함께 이를 악용하려는 시도 또한 증가하고 있다. 최근 위스콘신 매디슨 대학을 중심으로 한 연구진이 개발한 ‘AutoDAN-Turbo’라는…

1
2
3

Trending

한 질문에 AI 4개가 토론한다…xAI, '그록 4.20' 공개

한 질문에 AI 4개가 토론한다…xAI, ‘그록 4.20’…

이종철 수석 에디터 2월 23, 2026

AI 매터스 기사 썸네일 (1) 함샤우트 글로벌 ATR 2026 — AI MATE 한국인의 AI 동반자 지도

“AI 이미 포화됐다고?” 전 세계 84%는 AI를…

공인희 편집인 2월 24, 2026

AI 매터스 기사 썸네일 AI Arms and Influence

AI 전쟁 시뮬레이션, 가장 먼저 핵 투하를…

공인희 편집인 2월 24, 2026

공격 전략 - AI매터스