Search

  • Home
  • AI 해석가능성
"AI가 거짓말하는 순간 포착"... 앤트로픽, 클로드 내부 사고과정 공개

“AI가 거짓말하는 순간 포착”… 앤트로픽, 클로드 내부 사고과정…

8월 19, 2025

생성형 AI가 사용자에게 거짓말을 하면서도 그럴듯한 설명을 덧붙이는 순간이 과학적으로 포착됐다. AI 기업 앤트로픽(Anthropic)이 자사 AI 모델 클로드(Claude)의…

"AI의 사고과정 감시 시급하다"… AI 업계 리더들, 공동 입장문 발표

“AI의 사고과정 감시 시급하다”… AI 업계 리더들, 공동…

7월 16, 2025

오픈AI(OpenAI), 구글 딥마인드(Google DeepMind), 앤트로픽(Anthropic) 등 주요 AI 기업과 비영리 단체 연구진들이 AI 추론 모델의 소위 ‘생각’을 감시하는…

앤트로픽, AI 모델 회로 추적 도구 오픈소스로 공개

앤트로픽, 회로 추적 도구 오픈소스로 공개

5월 30, 2025

앤트로픽(Anthropic)이 최근 인공지능 해석가능성 연구에서 소개한 대규모 언어 모델의 사고 과정을 추적하는 새로운 방법을 오픈소스로 공개했다. 29일(현지 시간)…

AI 해석가능성 – AI 매터스 l AI Matters