세계 주요 AI 모델을 대상으로 한 트레이딩 시뮬레이션 결과가 월스트리트의 ‘AI 도입론’에 찬물을 끼얹었다. 블룸버그가 5월 6일 공개한 분석에 따르면, 글로벌 톱티어 AI 모델 다수가 시뮬레이션 트레이딩 대결에서 돈을 잃고, 과도한 거래를 일으켰으며, 같은 지시에도 모델별로 매우 다른 결정을 내렸다.
블룸버그가 인용한 비교 실험에서 평가 대상은 GPT-5.5, 클로드 오푸스 4.7, 제미나이 3.1 프로, 그록(Grok) 등 프론티어급 모델들이었다. 동일 시장 데이터·동일 거래 지시문·동일 리스크 한도를 부여했음에도 모델 간 매매 결정 차이는 매우 컸다. 일부 모델은 단기 변동성에 과민 반응하며 잦은 진입과 청산을 반복했고, 일부는 정반대로 보수적 결정만 내려 기회를 놓쳤다.
결과적으로 대부분의 모델이 시뮬레이션 자본을 잃었다는 점이 가장 충격적이다. 블룸버그는 “AI가 인간 트레이더를 대체할 수 있다는 가설은 적어도 현재 시점에서는 과장됐다”며 “AI 모델은 변동성·뉴스 흐름·심리적 패턴을 일관되게 처리하지 못한다”고 진단했다. 동일 모델에 동일 지시를 반복해도 다른 결과가 나오는 비결정론(non-determinism)도 도마에 올랐다.
이번 분석은 같은 날 발표된 ‘앤트로픽 금융 에이전트 + 마이크로소프트 365 통합’과 묘한 대조를 이룬다. 앤트로픽은 클로드를 월스트리트 업무 흐름에 깊숙이 박아 넣는 방향으로 진격하지만, 실제 자금 운용·트레이딩 영역에서는 모델 간 편차가 너무 커 단독 의사결정자로 쓰기는 어렵다는 것이 시장의 시각이다. 톰슨 로이터스 주가는 5월 5일 앤트로픽의 금융 에이전트 발표 이후 한때 5.1% 하락했다.
현실적 함의는 분명하다. AI는 리서치 요약·서류 작성·KYC 자동화 같은 ‘의사결정 보조’ 영역에서는 빠르게 성과를 내지만, 실제 자본을 움직이는 결정은 사람이 책임지는 ‘human-in-the-loop’ 구조가 한동안 유지될 가능성이 크다는 것이다. 한국 금융권에서도 클로드·코파일럿·솔라 등을 도입할 때 “어디서부터 어디까지 AI가 결정하게 둘 것인가”라는 거버넌스 설계가 핵심 과제로 떠오르고 있다.
다만 비결정론 자체가 ‘AI는 트레이더가 될 수 없다’는 결론으로 직결되는 것은 아니다. 모델 앙상블·강화학습 기반 백테스트·인간 검증 레이어를 결합한 하이브리드 구조로는 일부 헤지펀드에서 의미 있는 성과가 나오고 있다. 블룸버그 분석은 ‘AI=만능 트레이더’ 신화를 깨면서도, AI를 어떻게 결합할지에 대한 다음 라운드 토론을 촉발하는 효과가 클 것으로 보인다.
자세한 내용은 Bloomberg에서 확인할 수 있다.
이미지 출처: 이디오그램 생성







