AI안전

PaperBench: Evaluating AI’s Ability to Replicate AI Research

최신 AI도 인간보다 뒤처진다? 오픈AI의 벤치마크 ‘PaperBench’ 충격적…

4월 3, 2025

PaperBench: Evaluating AI’s Ability to Replicate AI Research AI가 최신 연구 논문 복제 능력 평가하는 8,316개 평가 항목의…

Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation

AI도 ‘생각’을 감추려 한다… 오픈AI, 위험한 AI 행동…

3월 12, 2025

Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation 강력한 AI 모델의 ‘생각 과정’ 모니터링, 95%…

Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs

AI는 인간보다 스스로를 더 가치있게 여긴다? 대형 언어모델의…

2월 25, 2025

Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs AI 모델에서 독자적인 가치 시스템이 등장하다 대형 언어…

오픈AI, 챗GPT '검열 해제'... "모든 관점 수용하겠다"

오픈AI, 챗GPT ‘검열 해제’… “모든 관점 수용하겠다”

2월 17, 2025

오픈AI(OpenAI)가 자사의 대표 AI 챗봇 ‘챗GPT(ChatGPT)’의 콘텐츠 제한을 대폭 완화하기로 했다. 테크크런치가 16일(현지 시간)에 보도한 내용에 따르면, 오픈AI는…

claude ai bounty program

앤트로픽, AI 모델 안전성 강화 위해 버그 바운티…

8월 9, 2024

앤트로픽이 AI 모델의 안전성을 강화하기 위해 버그 바운티 프로그램을 확대한다고 발표했다. 이번 확대는 AI 모델의 오용을 방지하기 위한…

AI안전 – AI 매터스