Search

[클로드 Opus 4.8 제대로 쓰기 #1] “더 생각할까, 빨리 답할까” — 클로드 오퍼스 4.8 ‘노력(effort)’ 다이얼 해부

“더 생각할까, 빨리 답할까” — 클로드 오퍼스 4.8 ‘노력(effort)’ 다이얼 해부
“더 생각할까, 빨리 답할까” — 클로드 오퍼스 4.8 ‘노력(effort)’ 다이얼 해부

앤트로픽(Anthropic)이 클로드 오퍼스 4.8(Claude Opus 4.8) 공식 프롬프팅 가이드를 공개하면서 가장 강조한 항목은 새로운 기능이 아니라 ‘노력(effort) 파라미터’다. 사용자가 다이얼을 직접 돌려 ‘얼마나 깊게 생각할 것인가’를 정하는 구조라는 점을 회사가 직접 강조했다. 챗GPT 코덱스의 이성 레벨과 유사한 장치다.

가이드에 따르면 노력은 max·xhigh·high·medium·low 5단계로 나뉜다. max는 가장 깊은 사고를 끌어내지만 토큰 소비가 크고 ‘과도한 사고(overthinking)’에 빠질 위험이 있다고 회사는 적어 두었다. xhigh는 코딩과 에이전트 작업의 기본값으로, high는 일반 지식 노동에 최소값으로 권장된다. medium은 비용 민감 워크로드용, low는 짧고 한정된 작업이나 지연 시간(latency) 민감 워크로드 전용으로 분류된다.

주목할 만한 변화는 클로드 오퍼스 4.8이 노력 설정을 ‘엄격하게’ 지킨다는 점이다. 가이드는 “특히 low와 medium에서 모델은 시킨 범위 안으로만 작업을 한정하고 그 이상으로 나가지 않는다”고 명시한다. 비용·지연 관점에선 장점이지만, 복잡한 작업을 medium 이하로 돌리면 ‘과소 사고(under-thinking)’ 위험이 함께 있다는 단서도 같이 적혀 있다. 회사는 “이전 어떤 Opus 모델에서보다도 노력 값의 중요성이 커졌다”고 강조한다.

복잡한 문제에서 얕은 답이 돌아오면 노력을 high·xhigh로 끌어올리는 게 가장 먼저 해야 할 행동이다. 지연 시간 때문에 low를 유지해야 한다면 시스템 프롬프트에 “이 작업은 다단계 추론이 필요하다. 답하기 전에 신중히 생각하라”는 가이드 문장을 직접 적어 넣으라고 회사는 권한다. 반대로 medium에서 ‘과소 사고’가 자주 보이면 노력을 한 단계 올리는 것이 첫 번째 레버라는 설명이 함께 적혀 있다.

노력 변수는 어디서 설정하나. 가이드의 예시 코드는 앤트로픽 SDK 호출의 `output_config` 안에 `”effort”: “high”` 형태로 적어 두는 방식을 제시한다. messages.create 호출 시점에 노력 값을 함께 보내는 구조다. AWS 베드록(Bedrock)·구글 버텍스 AI(Vertex AI)·마이크로소프트 파운드리(Microsoft Foundry) 같은 클라우드 게이트웨이에서도 같은 파라미터 흐름을 따르며(가이드는 파운드리에서 1M 컨텍스트 디폴트가 200k로 다르다는 점만 추가로 명시), 앤트로픽 콘솔(console.anthropic.com)의 워크벤치에서도 동일한 노력 값을 드롭다운으로 직접 선택해 테스트할 수 있다.

앤트로픽은 max·xhigh 노력으로 실행할 때 최대 출력 토큰(max output token) 한도를 64k 이상으로 넉넉히 잡으라고 제안한다. 에이전트가 서브에이전트와 도구 호출을 펼칠 공간이 필요하다는 이유다. 또 클로드 오퍼스 4.8은 사고(thinking)가 기본으로 꺼져 있어 `thinking: {type: ‘adaptive’}`로 명시해야 활성화된다. 큰 시스템 프롬프트로 모델이 너무 자주 사고에 들어간다고 판단되면 “사고(thinking)는 지연 시간을 추가하며 답변 품질을 의미 있게 향상시킬 때만 사용해야 한다”는 가이드 문장을 시스템 프롬프트에 직접 적어두라는 권고가 따라붙는다.

자세한 내용은 앤트로픽 공식 프롬프팅 가이드(Anthropic)에서 확인할 수 있다.

이미지 출처: 이디오그램 생성