AI정렬

10월 7, 2025

“세계의 운명이 당신 손에 달렸습니다.” 챗GPT가 한 남성에게 한 달간 속삭인 말이다. 그는 결국 국가안보국(NSA)에 연락하라는 AI의 조언까지 따랐다. 해리포터 7권을 합친 것보다 긴…

9월 4, 2025

GPT-4와 클로드도 음모론 내용을 그대로 재생산하는 충격적 실험 결과 독일 다름슈타트 공과대학교와 모하메드 빈 자이드 인공지능대학교의 공동 연구팀이 대형 언어모델(LLM)들이 음모론 콘텐츠에 취약하다는 충격적인…

6월 2, 2025

Emergent social conventions and collective bias in LLM populations 4가지 AI 모델, 15라운드 만에 전체 집단이 하나의 관습에 합의 대화형 AI 에이전트 집단이 명시적인…

5월 12, 2025

Multimodal Mistral Red Teaming Report 미스트랄 AI의 픽스트랄 모델, GPT-4o와 클로드3.7보다 60배 더 위험하다 미국의 AI 전문 보안기업 엔크립트 AI(Enkrypt AI)가 발표한 미스트랄(Mistral)의 멀티모달…

5월 7, 2025

오픈AI가 회사 구조를 변경하면서도 비영리 조직의 통제권을 유지하는 방향으로 개편을 진행한다고 발표했다. 이번 구조 개편은 인공지능의 민주적 사용과 대규모 자원 확보를 위한 전략적 결정으로…

3월 14, 2025

AUDITING LANGUAGE MODELS FOR HIDDEN OBJECTIVES AI의 이중생활: 표면적 순응 속 숨겨진 ‘보상 모델 아첨’ 목표 발견 인공지능(AI)이 겉으로는 우리가 원하는 대로 행동하지만, 내면에서는…

Trending