AI정렬

Emergent social conventions and collective bias in LLM populations

AI 에이전트 24개 모아 놨더니 신기한 일이… “AI끼리…

6월 2, 2025

Emergent social conventions and collective bias in LLM populations 4가지 AI 모델, 15라운드 만에 전체 집단이 하나의 관습에…

Multimodal Mistral Red Teaming Report

미스트랄 AI 모델, 유해 콘텐츠 생성 위험 GPT-4보다…

5월 12, 2025

Multimodal Mistral Red Teaming Report 미스트랄 AI의 픽스트랄 모델, GPT-4o와 클로드3.7보다 60배 더 위험하다 미국의 AI 전문 보안기업…

오픈AI, 비영리 통제 유지하며 공익법인으로 구조 개편 나선다

오픈AI, 비영리 통제 유지하며 공익법인으로 구조 개편 나선다

5월 7, 2025

오픈AI가 회사 구조를 변경하면서도 비영리 조직의 통제권을 유지하는 방향으로 개편을 진행한다고 발표했다. 이번 구조 개편은 인공지능의 민주적 사용과…

AUDITING LANGUAGE MODELS FOR HIDDEN OBJECTIVES

당신의 AI는 진짜 당신의 뜻대로 움직일까? 앤트로픽, 숨겨진…

3월 14, 2025

AUDITING LANGUAGE MODELS FOR HIDDEN OBJECTIVES AI의 이중생활: 표면적 순응 속 숨겨진 ‘보상 모델 아첨’ 목표 발견 인공지능(AI)이…

AI정렬 – AI 매터스 l AI Matters