AI 안전성

샘 올트먼, TED서 AI 에이전트 경고… “AI가 실수하면 훨씬 더 위험해진다”

샘 올트먼, TED서 AI 에이전트 경고… “AI가 실수하면…

4월 14, 2025

12일(현지 시간) 진행된 TED 컨퍼런스에서 오픈AI의 CEO 샘 올트먼(Sam Altman)이 인공지능의 급속한 발전과 미래 비전에 대해 깊이 있는…

Reasoning Models Don't Always Say What They Think

클로드·딥시크도 속마음 안 털어놓는다? 흥미로운 앤트로픽 연구 결과

4월 4, 2025

Reasoning Models Don’t Always Say What They Think 생각의 80%를 숨기는 AI: 추론 모델의 사고과정 충실도 20% 미만으로…

앤트로픽, 한국 지사 설립 추진... "일본·싱가포르와 동시에 아태 시장 공략"

앤트로픽, 한국 지사 설립 추진…”일본·싱가포르와 동시에 아태 시장…

3월 20, 2025

앤트로픽(Anthropic)이 한국에 지사를 설립할 예정이다. 인공지능(AI) 안전성과 정렬(alignment)에 초점을 맞춘 전략을 강화하며 국내 기업간거래(B2B) 시장에서의 협업 기회를 확대하려는…

Assessing and alleviating state anxiety in large language models

트라우마 얘기하면 ‘챗GPT’도 스트레스 받는다… 불안 수치 100%…

3월 20, 2025

Assessing and alleviating state anxiety in large language models 감정 프롬프트가 LLM 불안 100% 증가시키는 현상 발견 대형…

Claude's extended thinking

포켓몬 게임으로 AI 훈련을? 3명의 체육관 리더를 물리친…

2월 25, 2025

Claude’s extended thinking 앤트로픽(Anthropic)이 발표한 리포트에 따르면, 인공지능 모델 ‘클로드 3.7 소넷(Claude 3.7 Sonnet)’에 새롭게 도입된 ‘확장된 사고…

오픈AI 전 CTO 미라 무라티, 새로운 AI 스타트업 '싱킹머신즈랩' 설립

오픈AI 전 CTO 미라 무라티, 새로운 AI 스타트업…

2월 20, 2025

오픈AI(OpenAI)의 전 최고기술책임자(CTO) 미라 무라티(Mira Murati)가 새로운 AI 스타트업을 설립했다. 2025년 2월 18일 공개된 이 회사의 이름은 ‘싱킹머신즈랩(Thinking…

美-英, 파리 ‘AI 액션 서밋’서 AI 거버넌스 선언문 서명 거부... '이념적 편향' 우려

美-英, 파리 ‘AI 액션 서밋’서 AI 거버넌스 선언문…

2월 12, 2025

테크크런치(TechCrunch)가 11일(현지 시간) 보도한 내용에 따르면, 파리에서 열린 인공지능 액션 서밋(Artificial Intelligence Action Summit)이 수십 개국 정상들의 공동선언…

딥시크 R1, 주요 AI 모델 중 '탈옥' 취약성 가장 높아

딥시크 R1, 주요 AI 모델 중 ‘탈옥’ 취약성…

2월 10, 2025

월스트리트저널(Wall Street Journal)이 9일(현지 시간) 보도한 내용에 따르면, 실리콘밸리와 월가를 뒤흔든 중국의 AI 기업 딥시크의 최신 모델이 생체무기…

Revature State of IT Skills Survey Report

AI 챗봇 사용자 5천만명 시대, 전체 업무 70%가…

2월 7, 2025

THE NEW POLITICS OF AI GPT-4 비용 1년새 100배 감소…AI 발전 가속화 영국의 공공정책연구소(IPPR)가 발간한 ‘AI의 새로운 정치학’…

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming

AI 안전성 높이는 ‘헌법 분류기’ 개발…앤트로픽 연구진, 3000시간…

2월 4, 2025

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming 인공지능 연구기업 앤트로픽(Anthropic)이 대규모 언어모델(LLM)의…

AI 안전성 – AI 매터스