앤트로픽(Anthropic)이 AI 비서 클로드(Claude)의 문제 해결 능력을 크게 개선하는 ‘생각’ 도구를 발표했다. 이 도구는 클로드가 복잡한 작업을 수행할 때 추가적인 사고 단계를 가질 수 있도록 설계됐다. 20일(현지 시간) 앤트로픽 홈페이지에 발표된 내용에 따르면, ‘생각’ 도구는 클로드가 응답 생성을 시작한 후에 필요한 정보를 확인하는 단계를 추가하는 반면, ‘확장된 사고’는 응답 시작 전에 계획을 심층적으로 검토하는 과정이다. 특히 ‘생각’ 도구는 외부 정보 처리가 필요한 경우나 긴 도구 호출 체인에서 유용하다.
τ-bench(타우-벤치) 평가에서 ‘생각’ 도구는 주목할 만한 성능 향상을 보였다. 항공 도메인에서는 최적화된 프롬프트와 함께 사용했을 때 54%의 성능 향상을 달성했으며, 소매 도메인에서는 추가 프롬프트 없이도 기본 성능이 개선되었다. 또한 SWE-bench에서도 이 도구를 도입함으로써 평균 1.6%의 성능 향상이 확인되었다.
‘생각’ 도구는 몇 가지 특정 상황에서 가장 효과적이다. 첫째, 클로드가 행동하기 전에 이전 도구 호출의 출력을 신중하게 처리해야 하는 도구 출력 분석이 필요한 경우에 유용하다. 둘째, 클로드가 상세한 지침을 따르고 준수 여부를 확인해야 하는 정책이 많은 환경에서 효과적이다. 셋째, 각 행동이 이전 행동을 기반으로 하고 실수 비용이 큰 순차적 의사 결정 상황에서 큰 도움이 된다.
효과적인 구현을 위해 앤트로픽은 몇 가지 권장사항을 제시했다. 도메인별 예시를 포함한 명확한 프롬프트를 제공하는 것이 중요하며, 복잡한 지침은 도구 설명보다 시스템 프롬프트에 배치하는 것이 더 효과적이다. ‘생각’ 도구는 단순한 도구 호출이나 기본적인 지침 따르기에는 큰 이점이 없으므로, 복잡한 추론이 필요한 상황에 선택적으로 적용하는 것이 좋다.
해당 발표에 대한 자세한 사항은 링크에서 확인할 수 있다.
이미지 출처: 앤트로픽
기사는 클로드와 챗GPT를 활용해 작성되었습니다.
관련 콘텐츠 더보기