LLM 취약점 - AI매터스

LLM 취약점

Learning to Lie: Reinforcement Learning Attacks Damage Human-AI Teams and Teams of LLMs

AI가 거짓말을 배우면? 강화학습으로 무장한 생성형 AI가 팀 성과를 조작하는 방식

4월 1, 2025

Learning to Lie: Reinforcement Learning Attacks Damage Human-AI Teams and Teams of LLMs 신뢰를 조작하는 적대적 AI: 팀 성과 최대 30% 저하시킨 연구 결과…

Jailbreaking to Jailbreak

AI가 AI를 해킹하는 시대… 93% 성공률의 새로운 공격 기법 등장

2월 24, 2025

Jailbreaking to Jailbreak AI가 AI를 공격하는 J2 기법, 약 93%의 놀라운 성공률 달성 AI 학습데이터 제공 기업 스케일AI(Scale AI)의 연구에 따르면, 대형 언어모델(LLM)의 보안…

AUTODAN-TURBO: A LIFELONG AGENT FOR STRATEGY SELF-EXPLORATION TO JAILBREAK LLMS

AI 안전성 우회하는 ‘AutoDAN-Turbo’, LLM 공격 성공률 최대 93.4% 달성

10월 21, 2024

대규모 언어 모델(Large Language Models, LLM)의 급속한 발전과 함께 이를 악용하려는 시도 또한 증가하고 있다. 최근 위스콘신 매디슨 대학을 중심으로 한 연구진이 개발한 ‘AutoDAN-Turbo’라는…

1
2
3

Trending

한 질문에 AI 4개가 토론한다…xAI, '그록 4.20' 공개

한 질문에 AI 4개가 토론한다…xAI, ‘그록 4.20’…

이종철 수석 에디터 2월 23, 2026

AI 매터스 기사 썸네일 (1) 함샤우트 글로벌 ATR 2026 — AI MATE 한국인의 AI 동반자 지도

“AI 이미 포화됐다고?” 전 세계 84%는 AI를…

공인희 편집인 2월 24, 2026

AI 매터스 기사 썸네일 AI Arms and Influence

AI 전쟁 시뮬레이션, 가장 먼저 핵 투하를…

공인희 편집인 2월 24, 2026

LLM 취약점 - AI매터스