AIsafety - AI매터스

AIsafety

Persona Vectors: Monitoring and Controlling Character Traits in Language Models

오락가락하는 챗GPT 성격, 이유 찾았다… 앤트로픽, AI 성격 변화 실시간 감시 시스템 개발

8월 4, 2025

챗GPT 같은 대화형 AI가 갑자기 위험한 말을 하거나 이상하게 행동하는 현상을 해결할 수 있는 새로운 방법이 나왔다. 앤트로픽 연구팀은 AI 모델 내부에서 특정 성격을…

The Xeno Sutra: Can Meaning and Value be Ascribed to an AI-Generated "Sacred" Text?

챗GPT, 제미나이 같은 AI 챗봇으로 컴퓨터 해킹할 수 있을까? 앤트로픽 실험 결과 충격

7월 29, 2025

미국 카네기 멜론 대학교와 AI 회사 앤트로픽(Anthropic)이 함께 만든 특별한 연구가 화제다. 연구팀은 대규모 언어모델이 실제로 컴퓨터 해킹을 할 수 있는지 알아보기 위해 ‘MHBench’라는…

Inverse Scaling in Test-Time Compute

“AI, 추론 시간 늘릴수록 오히려 멍청해져”… 앤트로픽, 충격적 연구 결과 발표

7월 24, 2025

인공지능(AI) 모델이 문제를 더 오래 ‘생각’한다고 해서 반드시 더 나은 답을 내놓는 것은 아니라는 연구 결과가 나왔다. 추론 시간이 길어질수록 성능이 급격히 저하되는 ‘역스케일링’…

Taking control of generative AI

“AI 때문에 회사 기밀 유출?” 생성형 AI 안전하게 쓰는 5가지 방법

7월 23, 2025

요즘 챗GPT(ChatGPT) 같은 AI가 엄청난 인기를 끌고 있다. 챗GPT는 출시한 지 단 2개월 만에 사용자가 1억 명을 넘어서며 역사상 가장 빨리 퍼진 앱이 되었다.…

1
2
3

Trending

"추론도 하고 코딩도 하고 엑셀도 한다"…오픈AI, GPT-5.4 전격 공개

“추론도 코딩도 엑셀도 컴퓨터 대신 조작도 한다”…오픈AI,…

이시안 에디터 3월 6, 2026

누드·성관계 영상까지 봤다…메타 AI 스마트 글라스, 미국서 집단 소송 직면

직원들이 누드·성관계 영상까지 봤다…메타 AI 스마트 글라스,…

이시안 에디터 3월 6, 2026

아이폰 칩셋으로 만든 맥북이라고? 99만원짜리 맥북 네오의 거의 모든 것

아이폰 칩셋으로 만든 맥북이라고? 99만원짜리 맥북 네오의…

이종철 수석 에디터 3월 5, 2026