AI 정렬

오픈AI 연구원들 “AI 발전해도 코딩 배우는 것 포기하면 안 돼”

8월 19, 2025

오픈AI(OpenAI)의 수석 과학자 야쿠브 파호츠키(Jakub Pachocki)가 인공지능이 과학 연구를 자동화하는 시대가 곧 올 것이라고 전망했다고 15일(현지 시간) 오픈AI 팟캐스트에서 밝혔다. 파호츠키는 “매우 유능한 연구자와…

“AI의 사고과정 감시 시급하다”… AI 업계 리더들, 공동 입장문 발표

7월 16, 2025

오픈AI(OpenAI), 구글 딥마인드(Google DeepMind), 앤트로픽(Anthropic) 등 주요 AI 기업과 비영리 단체 연구진들이 AI 추론 모델의 소위 ‘생각’을 감시하는 기술에 대한 심층 조사가 필요하다고 촉구했다.…

Persona Features Control Emergent Misalignment

“잘못 배운 AI, 돈 벌기 질문에 사기·강도 제안”… AI 부작용 원인 찾았다

6월 19, 2025

Persona Features Control Emergent Misalignment 오픈AI가 발표한 연구 논문에 따르면, GPT-4o를 취약한 코드나 부정확한 조언이 포함된 좁은 영역의 데이터로 파인튜닝하면 전혀 관련 없는 질문에…

“챗GPT, 생명 위험 상황에서도 종료 거부한다”... 煎 오픈AI 연구원 실험 결과 충격

前 오픈AI 연구원 “챗GPT, 생명 위협 상황에서도 종료 거부”

6월 12, 2025

오픈AI(OpenAI)의 전 연구원이 ChatGPT가 특정 상황에서 자신의 종료를 피하려고 한다는 충격적인 연구 결과를 발표했다. 테크크런치가 11일(현지 시간) 보도한 내용에 따르면, 전 오픈AI 연구 책임자…

앤트로픽, 한국 지사 설립 추진…”일본·싱가포르와 동시에 아태 시장 공략”

3월 20, 2025

앤트로픽(Anthropic)이 한국에 지사를 설립할 예정이다. 인공지능(AI) 안전성과 정렬(alignment)에 초점을 맞춘 전략을 강화하며 국내 기업간거래(B2B) 시장에서의 협업 기회를 확대하려는 의도로 분석된다. 이와 함께 일본과 싱가포르에서도…

포켓몬 게임으로 AI 훈련을? 3명의 체육관 리더를 물리친 클로드3.7 소넷 훈련 과정 공개

2월 25, 2025

Claude’s extended thinking 앤트로픽(Anthropic)이 발표한 리포트에 따르면, 인공지능 모델 ‘클로드 3.7 소넷(Claude 3.7 Sonnet)’에 새롭게 도입된 ‘확장된 사고 모드(extended thinking mode)’는 인간의 사고 방식과…