AI감사 - AI매터스

AI감사

AUDITING LANGUAGE MODELS FOR HIDDEN OBJECTIVES

당신의 AI는 진짜 당신의 뜻대로 움직일까? 앤트로픽, 숨겨진 AI 목표 탐지 기법 공개

3월 14, 2025

AUDITING LANGUAGE MODELS FOR HIDDEN OBJECTIVES AI의 이중생활: 표면적 순응 속 숨겨진 ‘보상 모델 아첨’ 목표 발견 인공지능(AI)이 겉으로는 우리가 원하는 대로 행동하지만, 내면에서는…

유네스코, “성별에 따른 편견 가진 LLM” 우려

유네스코, “성별에 따른 편견 가진 LLM” 우려

8월 14, 2024

이미지 출처: 미드저니 생성 인공지능(AI) 기술이 전례 없는 속도로 산업 전반에 도입되고 있는 가운데, AI 모델에 내재된 성 편견 문제가 심각한 사회적 위험으로 대두되고…

1
2
3

Trending

앤드류 응(Andrew Ng)의 스탠포드대학교 CS230 강연

AI 커리어 전략: 앤드류 응이 말하는 AI…

공인희 편집인 1월 23, 2026

"하나의 서버로 8억 명 감당… 오픈AI가 밝힌 챗GPT 무중단 비결"

“하나의 서버로 8억 명 감당… 오픈AI가 밝힌…

권나혜 에디터 1월 23, 2026

"네이버 시대 끝나나"… 챗GPT 이용률 54% 돌파, 10대는 이미 이동

“네이버 시대 끝나나”… 챗GPT 이용률 54% 돌파,…

권나혜 에디터 1월 27, 2026

AI감사 - AI매터스