AI 모니터링

SHADE-Arena: Evaluating sabotage and monitoring in LLM agents

AI 거짓말 대회 해보니… 클로드가 1등, 인간 감시관은…

6월 17, 2025

Evaluating Sabotage and Monitoring in LLM Agents 앤트로픽이 공개한 연구 논문에 따르면, 프런티어 대형언어모델(LLM)들이 복잡한 에이전트 환경에서 사용자에게…

Split-screen showing normal AI vs deceptive AI with distinct visual signatures and warning indicators. SafetyNet monitoring system with four different detection methods catching AI misbehavior in real-time, 96% accuracy display.

AI도 거짓말할 때 ‘티’가 난다… 유해 답변 생성…

5월 29, 2025

SafetyNet: Detecting Harmful Outputs in LLMs by Modeling and Monitoring Deceptive Behaviors AI의 ‘나쁜 생각’ 미리 알아채는 기술,…

美 국토안보부, 정부기관 생성형 AI 도입 가이드라인 제시... 민감정보·시민권리 보호 강조

美 국토안보부, 정부기관 생성형 AI 도입 가이드라인 제시……

2월 7, 2025

블룸버그(Bloomberg)가 5일(현지 시간) 보도한 내용에 따르면 미국 국토안보부(Department of Homeland Security, DHS)가 정부기관의 생성형 AI 도입을 위한 상세…

ARTIFICIAL INTELLIGENCE MODEL RISK MANAGEMENT

금융권 생성형 AI 도입 본격화… MAS, ‘AI 리스크…

2월 6, 2025

ARTIFICIAL INTELLIGENCE MODEL RISK MANAGEMENT 챗GPT 출시 이후 금융권 AI 도입 가속화…자금세탁방지·사기탐지 등 도입 활발 싱가포르 통화청(MAS)이 지난해…

AI 모니터링 – AI 매터스 l AI Matters