“실제 엔지니어 능가”… 앤트로픽, 코딩·에이전트 최강 '클로드 오퍼스 4.5' 출시

앤트로픽(Anthropic)이 최신 AI 모델 ‘클로드 오퍼스 4.5(Claude Opus 4.5)’를 24일(현지 시각) 공개했다. 코딩과 에이전트, 컴퓨터 활용 분야에서 세계 최고 성능을 기록한 이 모델은 실제 소프트웨어 엔지니어링 테스트에서 인간 지원자를 능가하는 결과를 보여줬다.

앤트로픽에 따르면, 오퍼스 4.5는 성능 엔지니어링 지원자에게 제공하는 고난도 과제 시험에서 정해진 2시간 제한 내에 역대 어떤 인간 지원자보다 높은 점수를 받았다. 이 과제는 시간 압박 속에서 기술 능력과 판단력을 평가하도록 설계됐다.

실제 소프트웨어 엔지니어링 평가 벤치마크인 SWE-bench Verified에서도 오퍼스 4.5는 경쟁 모델들을 제치고 1위를 차지했다. SWE-bench Multilingual에서는 8개 프로그래밍 언어 중 7개에서 최고 성적을 기록하며 뛰어난 코딩 능력을 입증했다.

출시 전 내부 테스트에서 앤트로픽 직원들은 오퍼스 4.5가 모호한 상황을 처리하고 별다른 안내 없이도 복잡한 다중 시스템 버그를 해결한다고 평가했다. 조기 접근 권한을 받은 고객들도 비슷한 경험을 보고했다.

오퍼스 4.5는 앤트로픽의 앱과 API, 3대 주요 클라우드 플랫폼에서 이용 가능하다. 가격은 100만 토큰당 5달러/25달러로 책정돼 이전보다 접근성이 높아졌다. 앤트로픽은 오퍼스 출시와 함께 클로드 개발자 플랫폼과 클로드 코드, 소비자 앱의 업데이트도 함께 발표했다.

안전성 측면에서도 개선이 있었다. 앤트로픽은 시스템 카드를 통해 오퍼스 4.5가 지금까지 출시한 모델 중 가장 안전하게 정렬된 모델이라고 밝혔다. 특히 모델을 속여 유해한 행동을 하도록 하는 프롬프트 인젝션(prompt injection) 공격에 대한 견고함이 업계 최전선 모델 중 가장 뛰어나다.

해당 모델에 대한 자세한 사항은 앤트로픽 뉴스룸에서 확인 가능하다.

이미지 출처: 앤트로픽