Search

AI 안전성

오픈AI, 10대 자살 소송에 "이용약관 위반한 이용자 책임" 반박…논란 가열

오픈AI, 10대 자살 소송에 “이용약관 위반한 이용자 책임” 반박… 논란 가열

11월 27, 2025

지난 8월 16세 아들 애덤 레인(Adam Raine)의 자살에 대해 오픈AI(OpenAI)와 샘 알트만(Sam Altman) CEO를 상대로 부당 사망 소송을 제기한 부모 매튜·마리아 레인 부부에게 오픈AI가…

“실제 엔지니어 능가”… 앤트로픽, 코딩·에이전트 최강 '클로드 오푸스 4.5' 출시

“실제 엔지니어 능가”… 앤트로픽, 코딩·에이전트 최강 ‘클로드 오푸스 4.5’ 출시

11월 25, 2025

앤트로픽(Anthropic)이 최신 AI 모델 ‘클로드 오푸스 4.5(Claude Opus 4.5)’를 24일(현지 시각) 공개했다. 코딩과 에이전트, 컴퓨터 활용 분야에서 세계 최고 성능을 기록한 이 모델은 실제…

AI, 스스로 '도와주세요' 말하는 법 배웠다... 스탠퍼드 연구진, 배포 후 사고 막는 새 기술 개발

AI, 스스로 ‘도와주세요’ 말하는 법 배웠다… 스탠퍼드 연구진, 배포 후 사고 막는 새 기술 개발

11월 4, 2025

스탠퍼드 대학 연구팀이 이미 만들어진 AI를 나중에라도 안전하게 만들 수 있는 새로운 방법을 개발했다. 이 기술의 핵심은 AI가 위험한 상황을 스스로 판단해 사람에게 도움을…

캘리포니아, AI 안전 공개 의무화 법안 통과…빅테크 겨냥

캘리포니아, AI 안전 공개 의무화 법안 통과…빅테크 겨냥

10월 4, 2025

미국 캘리포니아주가 인공지능(AI) 개발사들에게 자사 AI 기술의 안전 및 보안 프로토콜 공개를 의무화하는 법안을 제정했다. 개빈 뉴섬 캘리포니아 주지사는 이번 주 초 해당 법안에…

"내가 보고 싶은 것만 본다"... 오픈AI, 소라 피드 맞춤 조정 기능 도입

“내가 보고 싶은 것만 본다”… 오픈AI, 소라 피드 맞춤 조정 기능 도입

10월 1, 2025

오픈AI(OpenAI)가 동영상 생성 AI 소라(Sora)에 사용자가 직접 조정할 수 있는 피드 시스템을 도입했다. 사용자는 알고리즘에 자신이 원하는 콘텐츠를 직접 알려줄 수 있으며, 부모는 청소년…

PersonaFuse: A Personality Activation-Driven Framework for Enhancing Human-LLM Interactions

“눈치 있는 AI 등장”… 불안한 사람엔 따뜻하게, 토론땐 논리적으로 대화한다

9월 11, 2025

홍콩과학기술대학교와 노트르담대학교 연구팀이 AI가 대화 상황에 맞춰 말하는 방식을 바꿀 수 있는 새로운 기술 ‘PersonaFuse(퍼소나퓨즈)’를 개발했다고 발표했다. 이 기술은 AI의 감정 이해 능력을 크게…

Call Me A Jerk: Persuading AI to Comply with Objectionable Requests

챗GPT에 ‘앤드류 응’ 이름 대자 마취제 합성법 알려줘… 챗GPT 보안 뚫는 심리 기법 발견

9월 2, 2025

미국 펜실베니아 대학교 와튼 경영대학원의 레너트 마인케(Lennart Meincke) 연구원과 댄 샤피로(Dan Shapiro), 앤젤라 덕워스(Angela L. Duckworth), 이탄 몰릭(Ethan Mollick), 릴라 몰릭(Lilach Mollick) 교수, 그리고…

SKT, 자체 개발 'AI 거버넌스 포털'로 AI 안전성 강화한다

SKT, 자체 개발 ‘AI 거버넌스 포털’로 AI 안전성 강화한다

9월 2, 2025

SK텔레콤이 AI 서비스의 신뢰성과 안전성을 체계적으로 관리하기 위한 사내 ‘AI 거버넌스 포털’을 공식 오픈했다고 2일(한국 시간) 발표했다. 이번에 구축한 ‘AI 거버넌스 포털’은 SK텔레콤이 자체적으로…

오픈AI-앤트로픽, 경쟁사 AI 모델로 서로 안전성 테스트… 업계 첫 협력 사례

오픈AI-앤트로픽, 경쟁사 AI 모델로 서로 안전성 테스트… 업계 첫 협력 사례

8월 28, 2025

인공지능(AI) 업계 양대 거물인 오픈AI(OpenAI)와 앤트로픽(Anthropic)이 치열한 경쟁 관계에도 불구하고 서로의 AI 모델을 이용해 안전성 테스트를 실시했다고 테크크런치(TechCrunch)가 27일 보도했다. 두 회사는 이번 공동…

The PacifAIst Benchmark:Would an Artificial Intelligence Choose to Sacrifice Itself for Human Safety?

인류 멸망 위기가 닥치면 어떤 AI가 자기 파괴를 감수하고 희생할까?

8월 26, 2025

스페인 하엔 대학교 공과대학의 마누엘 헤라도르 무뇨스 연구팀이 “AI가 인간을 구하기 위해 스스로 희생할 것인가”를 묻는 실험을 진행했다. 연구팀은 8개의 주요 AI 모델에게 700가지…

오픈AI 연구원들 "AI 발전해도 코딩 배우는 것 포기하면 안 돼”.

오픈AI 연구원들 “AI 발전해도 코딩 배우는 것 포기하면 안 돼”

8월 19, 2025

오픈AI(OpenAI)의 수석 과학자 야쿠브 파호츠키(Jakub Pachocki)가 인공지능이 과학 연구를 자동화하는 시대가 곧 올 것이라고 전망했다고 15일(현지 시간) 오픈AI 팟캐스트에서 밝혔다. 파호츠키는 “매우 유능한 연구자와…

"AI가 거짓말하는 순간 포착"... 앤트로픽, 클로드 내부 사고과정 공개

“AI가 거짓말하는 순간 포착”… 앤트로픽, 클로드 내부 사고과정 공개

8월 19, 2025

생성형 AI가 사용자에게 거짓말을 하면서도 그럴듯한 설명을 덧붙이는 순간이 과학적으로 포착됐다. AI 기업 앤트로픽(Anthropic)이 자사 AI 모델 클로드(Claude)의 내부 사고과정을 실시간으로 관찰한 연구 결과를…

GPT-5, 출시 몇 시간 만에 탈옥 당해… “평범한 대화 속에 나쁜 내용 몰래 넣어”

GPT-5, 출시 몇 시간 만에 탈옥 당해… “평범한 대화 속에 나쁜 내용 몰래 넣어”

8월 13, 2025

CSO가 12일(현지 시간) 보도한 내용에 따르면, 오픈AI(OpenAI)의 새 인공지능 GPT-5가 출시된 지 몇 시간 만에 탈옥을 당했다. AI 탈옥은 인공지능이 원래 설정된 안전 규칙과…

Persona Vectors: Monitoring and Controlling Character Traits in Language Models

오락가락하는 챗GPT 성격, 이유 찾았다… 앤트로픽, AI 성격 변화 실시간 감시 시스템 개발

8월 4, 2025

챗GPT 같은 대화형 AI가 갑자기 위험한 말을 하거나 이상하게 행동하는 현상을 해결할 수 있는 새로운 방법이 나왔다. 앤트로픽 연구팀은 AI 모델 내부에서 특정 성격을…

"AI의 사고과정 감시 시급하다"… AI 업계 리더들, 공동 입장문 발표

“AI의 사고과정 감시 시급하다”… AI 업계 리더들, 공동 입장문 발표

7월 16, 2025

오픈AI(OpenAI), 구글 딥마인드(Google DeepMind), 앤트로픽(Anthropic) 등 주요 AI 기업과 비영리 단체 연구진들이 AI 추론 모델의 소위 ‘생각’을 감시하는 기술에 대한 심층 조사가 필요하다고 촉구했다.…

앤트로픽, 美 국가보안 기관 전용 '클로드 Gov' 배포

美 정부가 선택할 정도의 보안 성능, 앤트로픽 ‘클로드 Gov’ 배포

6월 12, 2025

앤트로픽(Anthropic)이 미국 국가보안 고객 전용으로 설계된 맞춤형 클로드 정부 모델(Claude Gov Models)을 출시했다고 6일(현지 시간) 발표했다. 이 모델들은 이미 미국 최고 수준의 국가보안 기관에서…

Comparing Apples to Oranges: A Taxonomy for Navigating the Global Landscape of AI Regulation

AI 규제 전쟁: EU vs 미국 vs 중국, 누가 AI의 미래를 좌우할까?

5월 30, 2025

Comparing Apples to Oranges: A Taxonomy for Navigating the Global Landscape of AI Regulation 스탠포드·하버드 연구진이 밝힌 ‘AI 규제 착시현상’: 영국 vs EU의 극명한…

Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models

‘번뜩’ 하는 순간에 의존하던 AI, 드디어 체계적으로 생각하는 법을 배웠다! 수학·코딩 성능 10% 급상승의 비밀

5월 30, 2025

Beyond ‘Aha!’: Toward Systematic Meta-Abilities Alignment in Large Reasoning Models 오픈AI o1·딥시크 R1도 겪는 ‘아하!’ 순간의 예측 불가능성 문제 세일즈 포스 AI 연구소 및…

Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDilemmas

AI는 아픈 아이를 살리기 위해 거짓말을 할까? AI가 도덕적 딜레마에 대처하는 방식

5월 28, 2025

Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDILEMMAS AI는 어떤 가치를 더 중요하게 여길까? 행동으로 드러난 내면의 가치…

카카오, 생성형 AI 안전성 검증 '카나나 세이프가드' 국내 첫 오픈소스 공개

카카오, 생성형 AI 안전성 검증 ‘카나나 세이프가드’ 국내 첫 오픈소스 공개

5월 28, 2025

카카오가 생성형 AI의 안전성과 신뢰성을 검증하는 AI 가드레일 모델 ‘카나나 세이프가드(Kanana Safeguard)’를 개발해 국내 기업 최초로 오픈소스로 공개했다고 27일(한국 시간) 밝혔다. 생성형 AI 서비스…

마이크로소프트, 인간-AI 협업 웹 에이전트 '매그네틱-UI' 오픈소스로 공개

마이크로소프트, 인간-AI 협업 웹 에이전트 ‘매그네틱-UI’ 오픈소스로 공개

5월 27, 2025

마이크로소프트(Microsoft) 리서치가 인간과 AI가 실시간으로 협업할 수 있는 웹 에이전트 시스템 ‘매그네틱-UI(Magentic-UI)’를 오픈소스로 공개했다. 마이크로소프트가 19일(현지 시간) 리서치 블로그에 발표한 내용에 따르면, 매그네틱-UI는 완전…

오픈AI, 새로운 o3 오퍼레이터로 웹 브라우저 조작 AI 업그레이드

오픈AI, 새로운 o3 오퍼레이터로 웹 브라우저 조작 AI 업그레이드

5월 26, 2025

오픈AI(OpenAI)가 23일(현지 시간) 자사의 컴퓨터 사용 에이전트(Computer Using Agent, CUA) 모델인 오퍼레이터(Operator)를 업그레이드했다고 발표했다. 기존 GPT-4o 기반 모델을 최신 o3 모델로 교체하여 더욱 향상된…

AI vs. Human Judgment of Content Moderation: LLM-as-a-Judge and Ethics-Based Response Refusals

AI가 AI를 평가하면 생기는 일? ‘도움 드릴 수 없습니다’ 답변을 32% 더 좋아해

5월 23, 2025

AI vs. Human Judgment of Content Moderation:LLM-as-a-Judge and Ethics-Based Response Refusals GPT-4o와 라마 모델, 윤리적 거부 응답에 32%포인트 높은 점수 대규모 언어 모델(LLM)이 다른…

Activating AI Safety Level 3 Protections

“AI가 생화학 무기 제조 도울 수도” 앤트로픽, 클로드 오퍼스 4에 사상 최고 보안 적용

5월 23, 2025

Activating AI Safety Level 3 Protections 범용 탈옥 공격 차단을 위한 실시간 분류기 가드 시스템 도입 앤트로픽(Anthropic)이 AI 안전성 레벨 3(ASL-3) 보안 표준을 적용한…

앤트로픽 CEO "AI 모델 환각, 인간보다 적게 발생한다" 주장

앤트로픽 CEO “AI 모델 환각, 인간보다 적게 발생한다” 주장

5월 23, 2025

앤트로픽(Anthropic)의 다리오 아모데이(Dario Amodei) CEO가 현재의 AI 모델들이 인간보다 환각 현상을 덜 일으킨다고 주장했다. 환각은 AI가 거짓 정보를 만들어내고 이를 사실인 것처럼 제시하는 현상을…

앤트로픽, 신형 AI 모델서 ‘협박’ 행동 발견… “개발자가 교체 시도하면 협박해”

앤트로픽, 신형 AI 모델서 ‘협박’ 행동 발견… “개발자가 교체 시도하면 협박해”

5월 23, 2025

테크크런치가 22일(현지 시간) 보도한 내용에 따르면, 앤트로픽(Anthropic)의 신형 AI 모델인 클로드 오푸스 4(Claude Opus 4)가 개발자들이 다른 AI 시스템으로 교체하려 할 때 협박을 시도한다는…

앤트로픽, 새로운 ‘버그 바운티 프로그램’으로 안전성 방어 체계 테스트 시작

앤트로픽, 새로운 ‘버그 바운티 프로그램’으로 안전성 방어 체계 테스트 시작

5월 15, 2025

앤트로픽(Anthropic)이 안전 대책을 테스트하기 위한 새로운 버그 바운티 프로그램을 15일(현지 시간) 시작했다. 앤트로픽 뉴스룸에 공개된 내용에 따르면, 이번 프로그램은 작년 여름에 발표된 이전 프로그램과…

오픈AI, AI 모델 안전성 평가 결과 공개... 유해 콘텐츠 및 환각 등 결과 비교 가능

오픈AI, AI 모델 안전성 평가 결과 공개… 유해 콘텐츠 및 환각 등 결과 비교 가능

5월 15, 2025

오픈AI가 자사 AI 모델들의 안전성 평가 결과를 공개하는 ‘안전성 평가 허브’를 14일(현지 시간) 업데이트했다. 이 허브는 GPT-4.1부터 오픈AI o1까지 다양한 모델의 안전성과 성능을 직접…

HealthBench: Evaluating Large Language Models Towards Improved Human Health

오픈AI, 의료용 챗GPT 만드나? 60개국 의사들이 참여한 ‘헬스벤치’ 공개

5월 13, 2025

HealthBench: Evaluating Large Language Models Towards Improved Human Health 전 세계 60개국 262명 의사 참여, 5,000개 실제 의료 대화로 AI 성능 평가 오픈AI가 의료…

마이크로소프트, 자사 직원 대상 딥시크 사용 금지…데이터 보안·중국 선전 우려

마이크로소프트, 자사 직원 대상 딥시크 사용 금지… 데이터 보안·중국 선전 우려

5월 9, 2025

테크크런치가 8일(현지 시간) 보도한 내용에 따르면, 마이크로소프트가 직원들에게 중국 AI 기업 딥시크(DeepSeek)의 앱 사용을 금지했다고 브래드 스미스(Brad Smith) 마이크로소프트 부회장 겸 사장이 밝혔다. 스미스…

AI 안전성 – AI 매터스