AI 신뢰성

The Hallucination Tax of Reinforcement Finetuning

강화학습으로 똑똑해진 AI의 근자감… “모르겠다” 못하고 자신만만하게 틀린다

6월 11, 2025

The Hallucination Tax of Reinforcement Finetuning OpenAI o1처럼 똑똑해진 AI의 치명적 약점 발견 강화학습 파인튜닝(Reinforcement Finetuning, RFT)이 대형언어모델(LLM)의…

AI vs. Human Judgment of Content Moderation: LLM-as-a-Judge and Ethics-Based Response Refusals

AI가 AI를 평가하면 생기는 일? ‘도움 드릴 수…

5월 23, 2025

AI vs. Human Judgment of Content Moderation:LLM-as-a-Judge and Ethics-Based Response Refusals GPT-4o와 라마 모델, 윤리적 거부 응답에 32%포인트…

앤트로픽 CEO "AI 모델 환각, 인간보다 적게 발생한다" 주장

앤트로픽 CEO “AI 모델 환각, 인간보다 적게 발생한다”…

5월 23, 2025

앤트로픽(Anthropic)의 다리오 아모데이(Dario Amodei) CEO가 현재의 AI 모델들이 인간보다 환각 현상을 덜 일으킨다고 주장했다. 환각은 AI가 거짓 정보를…

AI 신뢰성 및 윤리 제도 연구

AI 사고 13배 급증, 기업들은 어떻게 대응하고 있나?…

5월 14, 2025

AI 신뢰성 및 윤리 제도 연구 AI 사고 1년간 13배 급증, 공익적·경제적 피해 대부분…기업들 신뢰성 확보 총력전 소프트웨어정책연구소가…

Reasoning Models Don't Always Say What They Think

클로드·딥시크도 속마음 안 털어놓는다? 흥미로운 앤트로픽 연구 결과

4월 4, 2025

Reasoning Models Don’t Always Say What They Think 생각의 80%를 숨기는 AI: 추론 모델의 사고과정 충실도 20% 미만으로…

Learning to Lie: Reinforcement Learning Attacks Damage Human-AI Teams and Teams of LLMs

AI가 거짓말을 배우면? 강화학습으로 무장한 생성형 AI가 팀…

4월 1, 2025

Learning to Lie: Reinforcement Learning Attacks Damage Human-AI Teams and Teams of LLMs 신뢰를 조작하는 적대적 AI: 팀…

앤트로픽, AI 모델의 사고 추척하는 '현미경' 기술 공개

앤트로픽, AI 모델의 사고 추척하는 ‘현미경’ 기술 공개

3월 28, 2025

앤트로픽(Anthropic)이 28일(현지 시간) 자사 X를 통해, 대형 언어 모델(LLM)의 내부 작동 방식을 들여다볼 수 있는 ‘현미경’을 개발했다고 발표했다.…

Emerging best practices for Responsible AI deployment in banking

은행에서 AI는 어떻게 통제되는가? 글로벌 50대 은행의 대응…

3월 7, 2025

Emerging best practices for Responsible AI deployment in banking 리스크에 민감한 은행 산업, AI 리스크 관리에 연간 41%…

생성형 인공지능 서비스 이용자 보호 가이드라인

방통위, ‘생성형 AI 서비스 이용자 보호 가이드라인’ 발표……

3월 7, 2025

생성형 인공지능 서비스 이용자 보호 가이드라인 이용자 권익 보호 위한 6가지 핵심 실행 방식 제시 방송통신위원회가 생성형 인공지능(Generative…

Beyond the hype: The business reality of AI for cybersecurity

사이버보안 AI, 98%가 사용하지만 당신이 모르는 위험은? 과대광고를…

3월 5, 2025

Beyond the hype: The business reality of AI for cybersecurity 전세계 기업 98%, 이미 AI 사이버보안 도입 중…

AI 신뢰성 – AI 매터스 l AI Matters