PaperBench: Evaluating AI’s Ability to Replicate AI Research AI가 최신 연구 논문 복제 능력 평가하는 8,316개 평가 항목의…
Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation 강력한 AI 모델의 ‘생각 과정’ 모니터링, 95%…
Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs AI 모델에서 독자적인 가치 시스템이 등장하다 대형 언어…
오픈AI(OpenAI)가 자사의 대표 AI 챗봇 ‘챗GPT(ChatGPT)’의 콘텐츠 제한을 대폭 완화하기로 했다. 테크크런치가 16일(현지 시간)에 보도한 내용에 따르면, 오픈AI는…
앤트로픽이 AI 모델의 안전성을 강화하기 위해 버그 바운티 프로그램을 확대한다고 발표했다. 이번 확대는 AI 모델의 오용을 방지하기 위한…