Search

  • Home
  • AI 행동 예측
"AI가 거짓말하는 순간 포착"... 앤트로픽, 클로드 내부 사고과정 공개

“AI가 거짓말하는 순간 포착”… 앤트로픽, 클로드 내부 사고과정…

8월 19, 2025

생성형 AI가 사용자에게 거짓말을 하면서도 그럴듯한 설명을 덧붙이는 순간이 과학적으로 포착됐다. AI 기업 앤트로픽(Anthropic)이 자사 AI 모델 클로드(Claude)의…

Persona Vectors: Monitoring and Controlling Character Traits in Language Models

오락가락하는 챗GPT 성격, 이유 찾았다… 앤트로픽, AI 성격…

8월 4, 2025

챗GPT 같은 대화형 AI가 갑자기 위험한 말을 하거나 이상하게 행동하는 현상을 해결할 수 있는 새로운 방법이 나왔다. 앤트로픽…

Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDilemmas

AI는 아픈 아이를 살리기 위해 거짓말을 할까? AI가…

5월 28, 2025

Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDILEMMAS AI는 어떤 가치를 더…

LogiCity: Advancing Neuro-Symbolic AI with Abstract Urban Simulation

“AI도 운전면허가 필요하다” – 인공지능의 도시 생활 적응…

11월 6, 2024

카네기멜런대학교와 토론토대학교 등 국제 연구진이 인공지능(AI)에게 교통 규칙과 도시 생활의 기본 원칙을 가르치기 위한 가상 도시 ‘로직시티(LogiCity)’를 개발했다.…

AI 행동 예측 – AI 매터스 l AI Matters