AI 안전성

오픈AI, 미성년자 이용자에게 노골적 성적 대화 생성한 ‘버그’ 수정 중

4월 29, 2025

테크크런치(TechCrunch)가 28일(현지 시간) 보도한 내용에 따르면, 오픈AI가 챗GPT(ChatGPT)에서 18세 미만 미성년자로 등록된 계정에서도 노골적인 성인물 대화를 생성할 수 있었던 버그를 수정하고 있다. 테크크런치의 테스트…

구글 딥마인드 CEO “AI, 10년 내 모든 질병 종식 가능하다”

4월 24, 2025

구글 딥마인드(Google DeepMind) CEO 데미스 하사비스(Demis Hassabis)가 미국 CBS ’60분(60 Minutes)’ 인터뷰에서 인공지능 기술의 미래에 대한 충격적인 전망을 밝혔다. 21일(현지 시간) 60 Minutes 유튜브…

오픈AI, ‘개방형’ AI 모델 올여름 공개 예정… “최고 성능 목표”

4월 24, 2025

오픈AI(OpenAI)가 GPT-2 이후 첫 ‘개방형’ 언어 모델을 올해 출시한다고 밝힌 가운데, 이 모델에 대한 세부 정보가 서서히 공개되고 있다. 테크크런치(TechCrunch)가 23일(현지 시간) 에 따르면,…

오픈AI, GPT-4.1 공개... "지침 이행은 향상됐지만 정렬성 논란"

오픈AI, GPT-4.1 공개 후 논란 지속… “출시작보다 정렬성 떨어져”

4월 24, 2025

오픈AI(OpenAI)가 새롭게 공개한 GPT-4.1 모델이 지침 따르기에 뛰어나다고 주장했지만, 독립적인 테스트 결과 이전 모델보다 정렬성(alignment)이 떨어진다는 문제가 제기됐다. 테크크런치(TechCrunch)가 23일(현지 시간) 보도한 내용에 따르면,…

샘 올트먼, TED서 AI 에이전트 경고… “AI가 실수하면 훨씬 더 위험해진다”

4월 14, 2025

12일(현지 시간) 진행된 TED 컨퍼런스에서 오픈AI의 CEO 샘 올트먼(Sam Altman)이 인공지능의 급속한 발전과 미래 비전에 대해 깊이 있는 대화를 나눴다. 그는 크리에이티브 산업의 변화부터…

Reasoning Models Don't Always Say What They Think

클로드·딥시크도 속마음 안 털어놓는다? 흥미로운 앤트로픽 연구 결과

4월 4, 2025

Reasoning Models Don’t Always Say What They Think 생각의 80%를 숨기는 AI: 추론 모델의 사고과정 충실도 20% 미만으로 드러나 최근 대형 언어 모델(LLM)의 진화…

앤트로픽, 한국 지사 설립 추진…”일본·싱가포르와 동시에 아태 시장 공략”

3월 20, 2025

앤트로픽(Anthropic)이 한국에 지사를 설립할 예정이다. 인공지능(AI) 안전성과 정렬(alignment)에 초점을 맞춘 전략을 강화하며 국내 기업간거래(B2B) 시장에서의 협업 기회를 확대하려는 의도로 분석된다. 이와 함께 일본과 싱가포르에서도…

Assessing and alleviating state anxiety in large language models

트라우마 얘기하면 ‘챗GPT’도 스트레스 받는다… 불안 수치 100% 급증 현상 발견

3월 20, 2025

Assessing and alleviating state anxiety in large language models 감정 프롬프트가 LLM 불안 100% 증가시키는 현상 발견 대형 언어 모델(Large Language Models, LLMs)이 정신…

포켓몬 게임으로 AI 훈련을? 3명의 체육관 리더를 물리친 클로드3.7 소넷 훈련 과정 공개

2월 25, 2025

Claude’s extended thinking 앤트로픽(Anthropic)이 발표한 리포트에 따르면, 인공지능 모델 ‘클로드 3.7 소넷(Claude 3.7 Sonnet)’에 새롭게 도입된 ‘확장된 사고 모드(extended thinking mode)’는 인간의 사고 방식과…

오픈AI 전 CTO 미라 무라티, 새로운 AI 스타트업 ‘싱킹머신즈랩’ 설립

2월 20, 2025

오픈AI(OpenAI)의 전 최고기술책임자(CTO) 미라 무라티(Mira Murati)가 새로운 AI 스타트업을 설립했다. 2025년 2월 18일 공개된 이 회사의 이름은 ‘싱킹머신즈랩(Thinking Machines Lab)’이다. 싱킹 머신즈 랩(Thinking Machines…

美-英, 파리 ‘AI 액션 서밋’서 AI 거버넌스 선언문 서명 거부… ‘이념적 편향’ 우려

2월 12, 2025

테크크런치(TechCrunch)가 11일(현지 시간) 보도한 내용에 따르면, 파리에서 열린 인공지능 액션 서밋(Artificial Intelligence Action Summit)이 수십 개국 정상들의 공동선언 서명으로 마무리될 예정이었으나, 미국과 영국이 서명을…

딥시크 R1, 주요 AI 모델 중 ‘탈옥’ 취약성 가장 높아

2월 10, 2025

월스트리트저널(Wall Street Journal)이 9일(현지 시간) 보도한 내용에 따르면, 실리콘밸리와 월가를 뒤흔든 중국의 AI 기업 딥시크의 최신 모델이 생체무기 공격 계획이나 청소년 자해 조장 캠페인과…

Revature State of IT Skills Survey Report

AI 챗봇 사용자 5천만명 시대, 전체 업무 70%가 영향 받는다

2월 7, 2025

THE NEW POLITICS OF AI GPT-4 비용 1년새 100배 감소…AI 발전 가속화 영국의 공공정책연구소(IPPR)가 발간한 ‘AI의 새로운 정치학’ 보고서에 따르면, AI 기술은 현재 급격한…

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming

AI 안전성 높이는 ‘헌법 분류기’ 개발…앤트로픽 연구진, 3000시간 해킹 시도 막아내

2월 4, 2025

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming 인공지능 연구기업 앤트로픽(Anthropic)이 대규모 언어모델(LLM)의 안전성을 획기적으로 강화하는 기술을 개발했다. 앤트로픽의…

메타·오픈AI·앤트로픽 등 AI 기업, 美 국방부 협력 본격화

1월 20, 2025

테크크런치가 19일(현지 시간) 보도한 내용에 따르면, 오픈AI(OpenAI)와 앤트로픽(Anthropic) 등 주요 AI 기업들이 미군과의 협력에서 미묘한 균형을 맞추고 있다. AI를 활용해 국방부의 효율성을 높이되, AI가…

엔비디아, AI 안전성 강화 위한 ‘NIM 마이크로서비스’ 출시…아마존·로우스 등 도입

1월 17, 2025

엔비디아(NVIDIA)가 16일(현지 시간) 기업들의 AI 애플리케이션 안전성과 정확성을 높이기 위한 새로운 ‘NIM 마이크로서비스(NIM microservices)’를 공개했다. 이는 엔비디아 네모 가드레일(NVIDIA NeMo Guardrails) 소프트웨어 툴의 일부다.…