오픈AI(OpenAI), 구글 딥마인드(Google DeepMind), 앤트로픽(Anthropic) 등 주요 AI 기업과 비영리 단체 연구진들이 AI 추론 모델의 소위 ‘생각’을 감시하는…
Persona Features Control Emergent Misalignment 오픈AI가 발표한 연구 논문에 따르면, GPT-4o를 취약한 코드나 부정확한 조언이 포함된 좁은 영역의…
오픈AI(OpenAI)의 전 연구원이 ChatGPT가 특정 상황에서 자신의 종료를 피하려고 한다는 충격적인 연구 결과를 발표했다. 테크크런치가 11일(현지 시간) 보도한…
앤트로픽(Anthropic)이 한국에 지사를 설립할 예정이다. 인공지능(AI) 안전성과 정렬(alignment)에 초점을 맞춘 전략을 강화하며 국내 기업간거래(B2B) 시장에서의 협업 기회를 확대하려는…
Claude’s extended thinking 앤트로픽(Anthropic)이 발표한 리포트에 따르면, 인공지능 모델 ‘클로드 3.7 소넷(Claude 3.7 Sonnet)’에 새롭게 도입된 ‘확장된 사고…