AI 안전성

오픈AI, 10대 자살 소송에 “이용약관 위반한 이용자 책임” 반박… 논란 가열

11월 27, 2025

지난 8월 16세 아들 애덤 레인(Adam Raine)의 자살에 대해 오픈AI(OpenAI)와 샘 알트만(Sam Altman) CEO를 상대로 부당 사망 소송을 제기한 부모 매튜·마리아 레인 부부에게 오픈AI가…

“실제 엔지니어 능가”… 앤트로픽, 코딩·에이전트 최강 ‘클로드 오푸스 4.5’ 출시

11월 25, 2025

앤트로픽(Anthropic)이 최신 AI 모델 ‘클로드 오푸스 4.5(Claude Opus 4.5)’를 24일(현지 시각) 공개했다. 코딩과 에이전트, 컴퓨터 활용 분야에서 세계 최고 성능을 기록한 이 모델은 실제…

AI, 스스로 ‘도와주세요’ 말하는 법 배웠다… 스탠퍼드 연구진, 배포 후 사고 막는 새 기술 개발

11월 4, 2025

스탠퍼드 대학 연구팀이 이미 만들어진 AI를 나중에라도 안전하게 만들 수 있는 새로운 방법을 개발했다. 이 기술의 핵심은 AI가 위험한 상황을 스스로 판단해 사람에게 도움을…

캘리포니아, AI 안전 공개 의무화 법안 통과…빅테크 겨냥

10월 4, 2025

미국 캘리포니아주가 인공지능(AI) 개발사들에게 자사 AI 기술의 안전 및 보안 프로토콜 공개를 의무화하는 법안을 제정했다. 개빈 뉴섬 캘리포니아 주지사는 이번 주 초 해당 법안에…

“내가 보고 싶은 것만 본다”… 오픈AI, 소라 피드 맞춤 조정 기능 도입

10월 1, 2025

오픈AI(OpenAI)가 동영상 생성 AI 소라(Sora)에 사용자가 직접 조정할 수 있는 피드 시스템을 도입했다. 사용자는 알고리즘에 자신이 원하는 콘텐츠를 직접 알려줄 수 있으며, 부모는 청소년…

PersonaFuse: A Personality Activation-Driven Framework for Enhancing Human-LLM Interactions

“눈치 있는 AI 등장”… 불안한 사람엔 따뜻하게, 토론땐 논리적으로 대화한다

9월 11, 2025

홍콩과학기술대학교와 노트르담대학교 연구팀이 AI가 대화 상황에 맞춰 말하는 방식을 바꿀 수 있는 새로운 기술 ‘PersonaFuse(퍼소나퓨즈)’를 개발했다고 발표했다. 이 기술은 AI의 감정 이해 능력을 크게…

Call Me A Jerk: Persuading AI to Comply with Objectionable Requests

챗GPT에 ‘앤드류 응’ 이름 대자 마취제 합성법 알려줘… 챗GPT 보안 뚫는 심리 기법 발견

9월 2, 2025

미국 펜실베니아 대학교 와튼 경영대학원의 레너트 마인케(Lennart Meincke) 연구원과 댄 샤피로(Dan Shapiro), 앤젤라 덕워스(Angela L. Duckworth), 이탄 몰릭(Ethan Mollick), 릴라 몰릭(Lilach Mollick) 교수, 그리고…

SKT, 자체 개발 ‘AI 거버넌스 포털’로 AI 안전성 강화한다

9월 2, 2025

SK텔레콤이 AI 서비스의 신뢰성과 안전성을 체계적으로 관리하기 위한 사내 ‘AI 거버넌스 포털’을 공식 오픈했다고 2일(한국 시간) 발표했다. 이번에 구축한 ‘AI 거버넌스 포털’은 SK텔레콤이 자체적으로…

오픈AI-앤트로픽, 경쟁사 AI 모델로 서로 안전성 테스트… 업계 첫 협력 사례

8월 28, 2025

인공지능(AI) 업계 양대 거물인 오픈AI(OpenAI)와 앤트로픽(Anthropic)이 치열한 경쟁 관계에도 불구하고 서로의 AI 모델을 이용해 안전성 테스트를 실시했다고 테크크런치(TechCrunch)가 27일 보도했다. 두 회사는 이번 공동…

The PacifAIst Benchmark:Would an Artificial Intelligence Choose to Sacrifice Itself for Human Safety?

인류 멸망 위기가 닥치면 어떤 AI가 자기 파괴를 감수하고 희생할까?

8월 26, 2025

스페인 하엔 대학교 공과대학의 마누엘 헤라도르 무뇨스 연구팀이 “AI가 인간을 구하기 위해 스스로 희생할 것인가”를 묻는 실험을 진행했다. 연구팀은 8개의 주요 AI 모델에게 700가지…

오픈AI 연구원들 “AI 발전해도 코딩 배우는 것 포기하면 안 돼”

8월 19, 2025

오픈AI(OpenAI)의 수석 과학자 야쿠브 파호츠키(Jakub Pachocki)가 인공지능이 과학 연구를 자동화하는 시대가 곧 올 것이라고 전망했다고 15일(현지 시간) 오픈AI 팟캐스트에서 밝혔다. 파호츠키는 “매우 유능한 연구자와…

“AI가 거짓말하는 순간 포착”… 앤트로픽, 클로드 내부 사고과정 공개

8월 19, 2025

생성형 AI가 사용자에게 거짓말을 하면서도 그럴듯한 설명을 덧붙이는 순간이 과학적으로 포착됐다. AI 기업 앤트로픽(Anthropic)이 자사 AI 모델 클로드(Claude)의 내부 사고과정을 실시간으로 관찰한 연구 결과를…

GPT-5, 출시 몇 시간 만에 탈옥 당해… “평범한 대화 속에 나쁜 내용 몰래 넣어”

8월 13, 2025

CSO가 12일(현지 시간) 보도한 내용에 따르면, 오픈AI(OpenAI)의 새 인공지능 GPT-5가 출시된 지 몇 시간 만에 탈옥을 당했다. AI 탈옥은 인공지능이 원래 설정된 안전 규칙과…

Persona Vectors: Monitoring and Controlling Character Traits in Language Models

오락가락하는 챗GPT 성격, 이유 찾았다… 앤트로픽, AI 성격 변화 실시간 감시 시스템 개발

8월 4, 2025

챗GPT 같은 대화형 AI가 갑자기 위험한 말을 하거나 이상하게 행동하는 현상을 해결할 수 있는 새로운 방법이 나왔다. 앤트로픽 연구팀은 AI 모델 내부에서 특정 성격을…

“AI의 사고과정 감시 시급하다”… AI 업계 리더들, 공동 입장문 발표

7월 16, 2025

오픈AI(OpenAI), 구글 딥마인드(Google DeepMind), 앤트로픽(Anthropic) 등 주요 AI 기업과 비영리 단체 연구진들이 AI 추론 모델의 소위 ‘생각’을 감시하는 기술에 대한 심층 조사가 필요하다고 촉구했다.…

美 정부가 선택할 정도의 보안 성능, 앤트로픽 ‘클로드 Gov’ 배포

6월 12, 2025

앤트로픽(Anthropic)이 미국 국가보안 고객 전용으로 설계된 맞춤형 클로드 정부 모델(Claude Gov Models)을 출시했다고 6일(현지 시간) 발표했다. 이 모델들은 이미 미국 최고 수준의 국가보안 기관에서…

Comparing Apples to Oranges: A Taxonomy for Navigating the Global Landscape of AI Regulation

AI 규제 전쟁: EU vs 미국 vs 중국, 누가 AI의 미래를 좌우할까?

5월 30, 2025

Comparing Apples to Oranges: A Taxonomy for Navigating the Global Landscape of AI Regulation 스탠포드·하버드 연구진이 밝힌 ‘AI 규제 착시현상’: 영국 vs EU의 극명한…

Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models

‘번뜩’ 하는 순간에 의존하던 AI, 드디어 체계적으로 생각하는 법을 배웠다! 수학·코딩 성능 10% 급상승의 비밀

5월 30, 2025

Beyond ‘Aha!’: Toward Systematic Meta-Abilities Alignment in Large Reasoning Models 오픈AI o1·딥시크 R1도 겪는 ‘아하!’ 순간의 예측 불가능성 문제 세일즈 포스 AI 연구소 및…

Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDilemmas

AI는 아픈 아이를 살리기 위해 거짓말을 할까? AI가 도덕적 딜레마에 대처하는 방식

5월 28, 2025

Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDILEMMAS AI는 어떤 가치를 더 중요하게 여길까? 행동으로 드러난 내면의 가치…

카카오, 생성형 AI 안전성 검증 ‘카나나 세이프가드’ 국내 첫 오픈소스 공개

5월 28, 2025

카카오가 생성형 AI의 안전성과 신뢰성을 검증하는 AI 가드레일 모델 ‘카나나 세이프가드(Kanana Safeguard)’를 개발해 국내 기업 최초로 오픈소스로 공개했다고 27일(한국 시간) 밝혔다. 생성형 AI 서비스…

마이크로소프트, 인간-AI 협업 웹 에이전트 ‘매그네틱-UI’ 오픈소스로 공개

5월 27, 2025

마이크로소프트(Microsoft) 리서치가 인간과 AI가 실시간으로 협업할 수 있는 웹 에이전트 시스템 ‘매그네틱-UI(Magentic-UI)’를 오픈소스로 공개했다. 마이크로소프트가 19일(현지 시간) 리서치 블로그에 발표한 내용에 따르면, 매그네틱-UI는 완전…

오픈AI, 새로운 o3 오퍼레이터로 웹 브라우저 조작 AI 업그레이드

5월 26, 2025

오픈AI(OpenAI)가 23일(현지 시간) 자사의 컴퓨터 사용 에이전트(Computer Using Agent, CUA) 모델인 오퍼레이터(Operator)를 업그레이드했다고 발표했다. 기존 GPT-4o 기반 모델을 최신 o3 모델로 교체하여 더욱 향상된…

AI vs. Human Judgment of Content Moderation: LLM-as-a-Judge and Ethics-Based Response Refusals

AI가 AI를 평가하면 생기는 일? ‘도움 드릴 수 없습니다’ 답변을 32% 더 좋아해

5월 23, 2025

AI vs. Human Judgment of Content Moderation:LLM-as-a-Judge and Ethics-Based Response Refusals GPT-4o와 라마 모델, 윤리적 거부 응답에 32%포인트 높은 점수 대규모 언어 모델(LLM)이 다른…