앤트로픽(Anthropic)이 지금까지 가장 지능적인 AI 모델을 선보였다. 25일(현지 시간) 앤트로픽은 시장 최초의 하이브리드 추론 모델인 ‘클로드 3.7 소넷(Claude 3.7 Sonnet)’을 공개했다. 이 모델은 즉각적인 응답뿐만 아니라 사용자에게 단계별 사고 과정을 보여주는 확장 사고 기능을 갖추고 있다.
클로드 3.7 소넷, 시장 최초의 하이브리드 추론 모델… ‘이전 모델과 가격 동일’
클로드 3.7 소넷은 특히 코딩과 프론트엔드 웹 개발 분야에서 큰 성능 향상을 보인다. 앤트로픽은 이 모델과 함께 명령줄 기반 개발 도구인 ‘클로드 코드(Claude Code)’도 함께 공개했다. 클로드 코드는 제한된 연구 프리뷰로 제공되며, 개발자들이 터미널에서 직접 클로드에게 엔지니어링 작업을 위임할 수 있게 해준다.
클로드 3.7 소넷은 무료, 프로, 팀, 엔터프라이즈 등 모든 클로드 요금제에서 사용할 수 있으며, 앤트로픽 API, 아마존 베드록(Amazon Bedrock), 구글 클라우드의 버텍스 AI(Vertex AI)에서도 이용 가능하다. 확장 사고 모드는 무료 클로드 티어를 제외한 모든 플랫폼에서 사용할 수 있다.
표준 모드와 확장 사고 모드 모두에서 클로드 3.7 소넷의 가격은 이전 모델과 동일하게 유지된다. 입력 토큰 백만 개당 3달러, 출력 토큰 백만 개당 15달러이며, 여기에는 사고 토큰도 포함된다.
실용적인 첨단 추론 기능을 갖춘 클로드 3.7 소넷
앤트로픽은 다른 시장의 추론 모델들과는 다른 철학으로 클로드 3.7 소넷을 개발했다. 인간이 빠른 응답과 깊은 성찰에 모두 같은 뇌를 사용하는 것처럼, 앤트로픽은 추론이 별도의 모델이 아닌 첨단 모델의 통합된 기능이어야 한다고 믿는다. 이런 통합적 접근 방식은 사용자에게 더 매끄러운 경험을 제공한다.
클로드 3.7 소넷은 여러 면에서 이 철학을 구현했다. 첫째, 클로드 3.7 소넷은 일반적인 LLM과 추론 모델이 하나로 통합되어 있어, 사용자가 모델이 정상적으로 답변할 때와 더 오래 생각한 후 답변할 때를 선택할 수 있다. 표준 모드에서 클로드 3.7 소넷은 클로드 3.5 소넷의 업그레이드 버전이다. 확장 사고 모드에서는 답변하기 전에 자기 성찰을 통해 수학, 물리학, 지시 따르기, 코딩 등 다양한 작업에서 성능이 향상된다.
둘째, API를 통해 클로드 3.7 소넷을 사용할 때 사용자는 사고 예산도 제어할 수 있다. 최대 128K 토큰의 출력 한도 내에서 클로드에게 최대 N개의 토큰 동안만 생각하도록 지시할 수 있어, 속도(및 비용)와 답변 품질을 조절할 수 있다.
셋째, 앤트로픽은 추론 모델을 개발하면서 수학과 컴퓨터 과학 경연 문제에 대한 최적화를 다소 줄이고, 기업들이 실제로 LLM을 사용하는 방식을 더 잘 반영하는 실제 작업에 중점을 옮겼다.
코딩 분야에서 두각을 나타내는 클로드 3.7 소넷
초기 테스트에서 클로드는 전반적인 코딩 능력에서 선두를 보였다. 코딩 도구 개발사인 커서(Cursor)는 클로드가 복잡한 코드베이스 처리부터 고급 도구 사용에 이르기까지 실제 코딩 작업에서 다시 한번 최고 수준의 성능을 보인다고 언급했다. 코그니션(Cognition)은 코드 변경 계획과 풀스택 업데이트 처리에서 클로드가 다른 모델보다 훨씬 우수하다는 것을 발견했다.
버셀(Vercel)은 복잡한 에이전트 워크플로우에 대한 클로드의 탁월한 정밀도를 강조했으며, 레플릿(Replit)은 다른 모델들이 중단되는 상황에서도 처음부터 정교한 웹 앱과 대시보드를 구축하기 위해 클로드를 성공적으로 배포했다. 캔바(Canva)의 평가에서 클로드는 지속적으로 우수한 디자인 감각과 크게 줄어든 오류로 프로덕션급 코드를 생성했다.
클로드 3.7 소넷은 AI 모델이 실제 소프트웨어 문제를 해결하는 능력을 평가하는 SWE-bench Verified에서 최고 수준의 성능을 달성했다. 또한 복잡한 실제 작업에서 사용자 및 도구 상호작용을 테스트하는 프레임워크인 TAU-bench에서도 최고 수준의 성능을 기록했다.
개발자를 위한 에이전트 코딩 도구, 클로드 코드
2024년 6월부터 소넷은 전 세계 개발자들이 선호하는 모델이 되었다. 앤트로픽은 이제 개발자들에게 더 많은 권한을 부여하기 위해 첫 번째 에이전트 코딩 도구인 ‘클로드 코드’를 제한된 연구 프리뷰로 소개한다.
클로드 코드는 코드를 검색하고 읽고, 파일을 편집하고, 테스트를 작성하고 실행하며, 깃허브에 코드를 커밋하고 푸시하고, 명령줄 도구를 사용할 수 있는 적극적인 협업자로, 모든 단계에서 개발자와 소통한다. 클로드 코드는 초기 제품이지만 이미 앤트로픽 팀에게 필수적인 도구가 되었으며, 특히 테스트 주도 개발, 복잡한 문제 디버깅, 대규모 리팩토링에 유용하다. 초기 테스트에서 클로드 코드는 일반적으로 45분 이상의 수동 작업이 필요한 작업을 한 번에 완료하여 개발 시간과 오버헤드를 줄였다.
앤트로픽은 향후 몇 주 동안 도구 호출 신뢰성 향상, 장시간 실행 명령 지원, 앱 내 렌더링 개선, 클로드 자체의 기능 이해 확장 등을 통해 사용량에 따라 지속적으로 개선할 계획이다.
클로드 코드의 목표는 개발자들이 코딩을 위해 클로드를 어떻게 사용하는지 더 잘 이해하여 향후 모델 개선에 반영하는 것이다. 이 프리뷰에 참여함으로써 개발자들은 앤트로픽이 클로드를 구축하고 개선하는 데 사용하는 강력한 도구에 접근할 수 있으며, 그들의 피드백이 클로드의 미래를 직접 형성하게 된다.
깃허브 통합으로 향상된 코딩 경험 가능
앤트로픽은 또한 클로드 웹사이트(Claude.ai)에서의 코딩 경험도 개선했다. 깃허브 통합은 이제 모든 클로드 요금제에서 이용 가능하며, 개발자가 코드 저장소를 클로드에 직접 연결할 수 있다. 클로드 3.7 소넷은 지금까지 출시된 앤트로픽의 최고 코딩 모델이다. 개인, 업무, 오픈 소스 프로젝트에 대한 더 깊은 이해를 통해, 가장 중요한 깃허브 프로젝트 전반에 걸쳐 버그 수정, 기능 개발, 문서 작성을 위한 더 강력한 파트너가 된다.
유해한 요청 구분 정교화… 불필요한 요청 이전 모델 보다 45% 감소
앤트로픽은 클로드 3.7 소넷이 보안, 안전성, 신뢰성 표준을 충족하는지 확인하기 위해 외부 전문가들과 협력하여 광범위한 테스트와 평가를 수행했다. 클로드 3.7 소넷은 유해한 요청과 무해한 요청을 더 정교하게 구분하여 불필요한 거부를 이전 모델보다 45% 줄였다.
해당 기사의 원문은 링크에서 확인할 수 있다.
이미지 출처: 앤트로픽
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기