AI 안전성

앤트로픽, 새로운 ‘버그 바운티 프로그램’으로 안전성 방어 체계 테스트 시작

앤트로픽, 새로운 ‘버그 바운티 프로그램’으로 안전성 방어 체계…

5월 15, 2025

앤트로픽(Anthropic)이 안전 대책을 테스트하기 위한 새로운 버그 바운티 프로그램을 15일(현지 시간) 시작했다. 앤트로픽 뉴스룸에 공개된 내용에 따르면, 이번…

오픈AI, AI 모델 안전성 평가 결과 공개... 유해 콘텐츠 및 환각 등 결과 비교 가능

오픈AI, AI 모델 안전성 평가 결과 공개… 유해…

5월 15, 2025

오픈AI가 자사 AI 모델들의 안전성 평가 결과를 공개하는 ‘안전성 평가 허브’를 14일(현지 시간) 업데이트했다. 이 허브는 GPT-4.1부터 오픈AI…

HealthBench: Evaluating Large Language Models Towards Improved Human Health

오픈AI, 의료용 챗GPT 만드나? 60개국 의사들이 참여한 ‘헬스벤치’…

5월 13, 2025

HealthBench: Evaluating Large Language Models Towards Improved Human Health 전 세계 60개국 262명 의사 참여, 5,000개 실제 의료…

마이크로소프트, 자사 직원 대상 딥시크 사용 금지…데이터 보안·중국 선전 우려

마이크로소프트, 자사 직원 대상 딥시크 사용 금지… 데이터…

5월 9, 2025

테크크런치가 8일(현지 시간) 보도한 내용에 따르면, 마이크로소프트가 직원들에게 중국 AI 기업 딥시크(DeepSeek)의 앱 사용을 금지했다고 브래드 스미스(Brad Smith)…

오픈AI, 미성년자 이용자에게 노골적 성적 대화 생성한 '버그' 수정 중

오픈AI, 미성년자 이용자에게 노골적 성적 대화 생성한 ‘버그’…

4월 29, 2025

테크크런치(TechCrunch)가 28일(현지 시간) 보도한 내용에 따르면, 오픈AI가 챗GPT(ChatGPT)에서 18세 미만 미성년자로 등록된 계정에서도 노골적인 성인물 대화를 생성할 수…

구글 딥마인드 CEO "AI, 10년 내 모든 질병 종식 가능하다"

구글 딥마인드 CEO “AI, 10년 내 모든 질병…

4월 24, 2025

구글 딥마인드(Google DeepMind) CEO 데미스 하사비스(Demis Hassabis)가 미국 CBS ’60분(60 Minutes)’ 인터뷰에서 인공지능 기술의 미래에 대한 충격적인 전망을…

오픈AI, ‘개방형’ AI 모델 올여름 공개 예정… “최고 성능 목표”

오픈AI, ‘개방형’ AI 모델 올여름 공개 예정… “최고…

4월 24, 2025

오픈AI(OpenAI)가 GPT-2 이후 첫 ‘개방형’ 언어 모델을 올해 출시한다고 밝힌 가운데, 이 모델에 대한 세부 정보가 서서히 공개되고…

오픈AI, GPT-4.1 공개... "지침 이행은 향상됐지만 정렬성 논란"

오픈AI, GPT-4.1 공개 후 논란 지속… “출시작보다 정렬성…

4월 24, 2025

오픈AI(OpenAI)가 새롭게 공개한 GPT-4.1 모델이 지침 따르기에 뛰어나다고 주장했지만, 독립적인 테스트 결과 이전 모델보다 정렬성(alignment)이 떨어진다는 문제가 제기됐다.…

샘 올트먼, TED서 AI 에이전트 경고… “AI가 실수하면 훨씬 더 위험해진다”

샘 올트먼, TED서 AI 에이전트 경고… “AI가 실수하면…

4월 14, 2025

12일(현지 시간) 진행된 TED 컨퍼런스에서 오픈AI의 CEO 샘 올트먼(Sam Altman)이 인공지능의 급속한 발전과 미래 비전에 대해 깊이 있는…

Reasoning Models Don't Always Say What They Think

클로드·딥시크도 속마음 안 털어놓는다? 흥미로운 앤트로픽 연구 결과

4월 4, 2025

Reasoning Models Don’t Always Say What They Think 생각의 80%를 숨기는 AI: 추론 모델의 사고과정 충실도 20% 미만으로…

AI 안전성 – 페이지 2 – AI 매터스 l AI Matters