앤트로픽(Anthropic)이 5일(현지 시간) 클로드 오푸스 4.1(Claude Opus 4.1)을 출시했다고 발표했다. 이번 업그레이드는 에이전틱 작업, 실제 코딩, 추론 능력에서 기존 클로드 오푸스 4 대비 상당한 성능 향상을 보여준다. 오푸스 4.1은 유료 클로드 사용자와 클로드 코드(Claude Code)에서 즉시 이용할 수 있으며, API, 아마존 베드록(Amazon Bedrock), 구글 클라우드의 버텍스 AI(Google Cloud’s Vertex AI)를 통해서도 접근 가능하다. 가격은 기존 오푸스 4와 동일하게 유지된다.
새로운 오푸스 4.1은 코딩 성능에서 특히 두드러진 발전을 보였다. SWE-bench Verified 평가에서 74.5%의 점수를 기록하며 최첨단 성능을 달성했다. 또한 세부 추적과 에이전틱 검색 분야에서 심층 연구 및 데이터 분석 능력도 크게 개선됐다.
깃허브(GitHub)는 오푸스 4.1이 기존 오푸스 4 대비 대부분 기능에서 향상됐으며, 특히 다중 파일 코드 리팩토링에서 눈에 띄는 성능 향상을 보인다고 평가했다. 라쿠텐 그룹(Rakuten Group)은 오푸스 4.1이 대규모 코드베이스 내에서 불필요한 조정이나 버그 도입 없이 정확한 수정 사항을 찾아내는 데 탁월하다며, 일상적인 디버깅 작업에서 이러한 정밀도를 선호한다고 밝혔다.
윈드서프(Windsurf)는 오푸스 4.1이 주니어 개발자 벤치마크에서 오푸스 4 대비 1 표준편차 개선을 달성했다고 보고했다. 이는 소네트 3.7에서 소네트 4로 향상된 것과 거의 동일한 수준의 성능 도약이라고 평가했다.
앤트로픽은 모든 용도에서 오푸스 4에서 오푸스 4.1로의 업그레이드를 권장한다고 밝혔다. 개발자들은 API를 통해 ‘claude-opus-4-1-20250805’ 모델을 간단히 사용할 수 있다. 시스템 카드, 모델 페이지, 가격 페이지, 문서를 통해 더 자세한 정보를 확인할 수 있다.
클로드 모델들은 하이브리드 추론 모델로, 이번 블로그 포스트에 보고된 벤치마크는 확장 사고(extended thinking) 사용 여부에 관계없이 달성한 최고 점수를 보여준다. SWE-bench Verified와 Terminal-Bench는 확장 사고 없이 측정됐으며, TAU-bench, GPQA Diamond, MMMLU, MMMU, AIME 등은 최대 64K 토큰의 확장 사고로 보고됐다.
한편 앤트로픽은 최근 연방정부 부처와 기관들이 GSA 일정을 통해 클로드를 구매할 수 있게 됐다고 발표하는 등 공공부문 진출도 확대하고 있다.
해당 모델에 대한 자세한 사항은 앤트로픽 뉴스룸에서 확인 가능하다.
이미지 출처: 앤트로픽