Search

  • Home
  • 모델 안전성

모델 안전성

Persona Features Control Emergent Misalignment

“잘못 배운 AI, 돈 벌기 질문에 사기·강도 제안”… AI 부작용 원인 찾았다

6월 19, 2025

Persona Features Control Emergent Misalignment 오픈AI가 발표한 연구 논문에 따르면, GPT-4o를 취약한 코드나 부정확한 조언이 포함된 좁은 영역의 데이터로 파인튜닝하면 전혀 관련 없는 질문에…

AUTODAN-TURBO: A LIFELONG AGENT FOR STRATEGY SELF-EXPLORATION TO JAILBREAK LLMS

AI 안전성 우회하는 ‘AutoDAN-Turbo’, LLM 공격 성공률 최대 93.4% 달성

10월 21, 2024

대규모 언어 모델(Large Language Models, LLM)의 급속한 발전과 함께 이를 악용하려는 시도 또한 증가하고 있다. 최근 위스콘신 매디슨 대학을 중심으로 한 연구진이 개발한 ‘AutoDAN-Turbo’라는…

모델 안전성 – AI 매터스