AI 안전성

Comparing Apples to Oranges: A Taxonomy for Navigating the Global Landscape of AI Regulation

AI 규제 전쟁: EU vs 미국 vs 중국,…

5월 30, 2025

Comparing Apples to Oranges: A Taxonomy for Navigating the Global Landscape of AI Regulation 스탠포드·하버드 연구진이 밝힌 ‘AI…

Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models

‘번뜩’ 하는 순간에 의존하던 AI, 드디어 체계적으로 생각하는…

5월 30, 2025

Beyond ‘Aha!’: Toward Systematic Meta-Abilities Alignment in Large Reasoning Models 오픈AI o1·딥시크 R1도 겪는 ‘아하!’ 순간의 예측 불가능성…

Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDilemmas

AI는 아픈 아이를 살리기 위해 거짓말을 할까? AI가…

5월 28, 2025

Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDILEMMAS AI는 어떤 가치를 더…

카카오, 생성형 AI 안전성 검증 '카나나 세이프가드' 국내 첫 오픈소스 공개

카카오, 생성형 AI 안전성 검증 ‘카나나 세이프가드’ 국내…

5월 28, 2025

카카오가 생성형 AI의 안전성과 신뢰성을 검증하는 AI 가드레일 모델 ‘카나나 세이프가드(Kanana Safeguard)’를 개발해 국내 기업 최초로 오픈소스로 공개했다고…

마이크로소프트, 인간-AI 협업 웹 에이전트 '매그네틱-UI' 오픈소스로 공개

마이크로소프트, 인간-AI 협업 웹 에이전트 ‘매그네틱-UI’ 오픈소스로 공개

5월 27, 2025

마이크로소프트(Microsoft) 리서치가 인간과 AI가 실시간으로 협업할 수 있는 웹 에이전트 시스템 ‘매그네틱-UI(Magentic-UI)’를 오픈소스로 공개했다. 마이크로소프트가 19일(현지 시간) 리서치…

오픈AI, 새로운 o3 오퍼레이터로 웹 브라우저 조작 AI 업그레이드

오픈AI, 새로운 o3 오퍼레이터로 웹 브라우저 조작 AI…

5월 26, 2025

오픈AI(OpenAI)가 23일(현지 시간) 자사의 컴퓨터 사용 에이전트(Computer Using Agent, CUA) 모델인 오퍼레이터(Operator)를 업그레이드했다고 발표했다. 기존 GPT-4o 기반 모델을…

AI vs. Human Judgment of Content Moderation: LLM-as-a-Judge and Ethics-Based Response Refusals

AI가 AI를 평가하면 생기는 일? ‘도움 드릴 수…

5월 23, 2025

AI vs. Human Judgment of Content Moderation:LLM-as-a-Judge and Ethics-Based Response Refusals GPT-4o와 라마 모델, 윤리적 거부 응답에 32%포인트…

Activating AI Safety Level 3 Protections

“AI가 생화학 무기 제조 도울 수도” 앤트로픽, 클로드…

5월 23, 2025

Activating AI Safety Level 3 Protections 범용 탈옥 공격 차단을 위한 실시간 분류기 가드 시스템 도입 앤트로픽(Anthropic)이 AI…

앤트로픽 CEO "AI 모델 환각, 인간보다 적게 발생한다" 주장

앤트로픽 CEO “AI 모델 환각, 인간보다 적게 발생한다”…

5월 23, 2025

앤트로픽(Anthropic)의 다리오 아모데이(Dario Amodei) CEO가 현재의 AI 모델들이 인간보다 환각 현상을 덜 일으킨다고 주장했다. 환각은 AI가 거짓 정보를…

앤트로픽, 신형 AI 모델서 ‘협박’ 행동 발견… “개발자가 교체 시도하면 협박해”

앤트로픽, 신형 AI 모델서 ‘협박’ 행동 발견… “개발자가…

5월 23, 2025

테크크런치가 22일(현지 시간) 보도한 내용에 따르면, 앤트로픽(Anthropic)의 신형 AI 모델인 클로드 오푸스 4(Claude Opus 4)가 개발자들이 다른 AI…

AI 안전성 – AI 매터스 l AI Matters