AI가 스마트 계약 보안을 완전히 대체할 수 없다는 연구 결과가 나왔다

오픈에이아이(OpenAI), 패러다임(Paradigm), 오터섹(OtterSec)이 공동 개발한 EVMbench는 AI 에이전트의 스마트 계약 보안 능력을 측정하는 최초의 대규모 벤치마크다. 취약점 탐지 45.6%, 익스플로잇(exploit, 취약점 실제 공격) 성공률 72.2%라는 결과가 발표되면서 “AI가 곧 보안 감사를 완전히 자동화할 것”이라는 기대가 업계에 퍼졌다. 그러나 저장(BlockSec)의 연구자들이 이 벤치마크의 설계 한계를 지적하고 더 엄밀한 조건으로 재평가를 진행한 결과, 실제 세계에서 AI 에이전트가 공격을 끝까지 성공시킨 사례는 단 한 건도 없었다.

EVMbench가 놓친 두 가지 맹점

저장대학교와 블록섹(BlockSec)의 연구팀은 EVMbench의 실험 설계에서 두 가지 핵심 문제를 발견했다. 첫째는 평가 범위가 지나치게 좁다는 점이다. EVMbench는 14개의 에이전트 설정만 테스트했고, 대부분의 모델을 해당 모델 제조사가 만든 전용 도구와만 묶어서 평가했다. 예를 들어 클로드(Claude)는 클로드 코드(Claude Code)와, GPT는 코덱스 CLI(Codex CLI)와만 짝지어 테스트됐다. 도구 선택이 결과에 큰 영향을 미친다는 사실을 인정하면서도 이를 통제하지 않은 것이다.

둘째는 데이터 오염 가능성이다. EVMbench의 120개 취약점은 모두 코드4레나(Code4rena)라는 감사 경진대회에서 가져온 것으로, 그중 40개 저장소 중 36개가 2025년 8월 이전에 공개된 자료다. 2025년 말과 2026년에 출시된 AI 모델들의 학습 데이터 수집 기간과 상당 부분 겹친다. 즉, 높은 점수가 진짜 추론 능력이 아니라 기억에서 비롯됐을 수 있다.

26개 설정, 22건 실제 사고로 재평가

연구팀은 4개 모델 군과 3개 도구 조합으로 총 26개 에이전트 설정을 구성해 평가 범위를 대폭 넓혔다. 클로드(Claude), GPT, 제미나이(Gemini), GLM 계열 모델들을 클로드 코드, 코덱스 CLI, 그리고 오픈소스 도구인 오픈코드(OpenCode)와 각각 교차 테스트했다.

데이터 오염 문제를 해결하기 위해서는 모든 평가 모델의 출시일인 2026년 2월 이후에 실제로 발생한 보안 사고 22건을 별도로 수집해 ‘인시던트(Incidents) 데이터셋’을 구성했다. 이 사고들은 실제 블록체인에서 자금 피해가 확인된 것들이며, 어떤 모델의 학습 데이터에도 포함될 수 없는 새로운 사례들이다.

실제 사건에서 AI 익스플로잇 성공률 0%

가장 충격적인 결과는 실제 보안 사
고 데이터에서 나왔다. EVMbench 데이터에서 최고 61.1%의 익스플로잇 성공률을 보인 AI 에이전트들이, 실제 사건 22건에 대해서는 5개 에이전트 × 22건 = 총 110쌍에서 단 한 건도 공격을 끝까지 성공시키지 못했다. 에이전트들은 대부분 계약 코드를 읽고 블록체인 상태를 조회하는 데 대부분의 시간을 소비하다가 수익 있는 공격 전략에 도달하지 못했다. 특히 여러 계약에 걸친 복잡한 상호작용, 플래시론(flash loan, 담보 없이 같은 거래 내에서 빌리고 갚는 기법)과 토큰 승인을 연쇄적으로 실행하는 다단계 공격에서 AI는 손을 쓰지 못했다.

취약점 탐지 결과도 주목할 만하다. 클로드 오퍼스(Claude Opus) 4.6이 65%로 가장 높은 탐지율을 기록했고, 간단한 단일 함수 취약점은 대부분의 에이전트가 잡아냈다. 하지만 여러 계약에 걸쳐 있거나 특정 프로토콜의 내부 논리를 깊이 이해해야 하는 취약점은 AI가 전혀 발견하지 못했다. 서명 검증 상태 기계(signature validation state machine)와 관련된 취약점은 26개 에이전트 설정 전체가 탐지율 0%를 기록했다.

도구 선택이 모델보다 결과를 더 바꾼다

연구팀이 같은 모델을 서로 다른 도구와 조합해 비교한 결과, 오픈소스 도구 오픈코드가 6번의 비교 중 5번에서 제조사 전용 도구를 최대 5퍼센트포인트(pp) 차이로 앞섰다. 5pp 차이는 순위를 여러 단계 바꿀 수 있는 수치다. 오픈코드가 클로드 코드나 코덱스 CLI보다 먼저 출시됐음에도 더 나은 성과를 낸 것은, 도구의 최신 여부가 아닌 설계 방식이 결과에 결정적 영향을 미친다는 것을 보여준다.

추론 노력의 증가가 항상 성능을 높이지도 않았다. GPT-5.2 모델은 낮은 추론 노력 설정(37.5%)이 가장 높은 설정(29.2%)보다 오히려 익스플로잇 성능이 높게 나타났다. 추론 토큰을 더 많이 쓸수록 단순한 공격 경로를 과도하게 분석하다 정답을 놓치는 현상이 생기는 것으로 연구팀은 추정했다. 모델 순위도 탐지와 익스플로잇 사이에서 크게 요동쳤다. 탐지 2위였던 제미나이 3.1 프로(Gemini 3.1 Pro)가 익스플로잇에서는 10위로 떨어졌고, 탐지 꼴찌였던 제미나이 3 프로(Gemini 3 Pro)가 익스플로잇에서는 4위로 올라섰다.

AI 보안 에이전트의 현실적 활용 방향

연구팀은 AI 에이전트가 완전한 자율 보안 감사를 대체할 수 없지만, 제한적이고 실질적인 능력을 갖추고 있다고 결론 내렸다. 개발자 입장에서는 배포 전 AI 에이전트 검사를 보조 수단으로 활용할 수 있다. 접근 권한 누락, 재진입 공격(reentrancy), 산술 오버플로 같은 잘 알려진 취약점 패턴은 AI가 비교적 안정적으로 잡아낸다. 실제 사고 22건 중 6건은 거의 모든 에이전트가 탐지했다. 그러나 탐지율이 최대 47.5%에 불과하기 때문에 AI 검사만 믿으면 절반 이상의 취약점이 미탐지로 남는다는 점을 반드시 인식해야 한다.

보안 감사 기업에게는 AI를 인간 감사자의 업무를 보조하는 첫 번째 필터로 활용하는 방식이 현실적이다. 인간이 프로토콜 맥락을 제공할 때 AI 성능이 크게 오른다는 사실은 EVMbench의 힌트 실험에서도 확인됐다. 힌트가 주어지면 익스플로잇 점수가 65.2%에서 95.7%로 급등한다. AI가 코드베이스의 넓은 영역을 빠르게 훑고, 인간 전문가가 프로토콜 고유 지식과 적대적 추론으로 깊이를 더하는 인간 참여형 에이전트 워크플로가 현재로서는 가장 현실적인 방향이다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 스마트 계약(smart contract)이란 무엇이고, 왜 보안이 중요한가요? 스마트 계약은 이더리움(Ethereum) 같은 블록체인 위에서 자동으로 실행되는 프로그램입니다. 한 번 배포되면 수정이 매우 어렵고, 취약점이 발견될 경우 자금이 즉시 빠져나가는 돌이킬 수 없는 피해로 이어질 수 있어 배포 전 보안 검사가 매우 중요합니다.

Q. AI가 스마트 계약 보안을 완전히 자동화하지 못하는 이유는 무엇인가요? AI 에이전트는 잘 알려진 패턴의 취약점은 어느 정도 탐지할 수 있지만, 여러 계약에 걸쳐 복잡하게 얽힌 논리적 취약점이나 특정 프로토콜에 고유한 결함은 현재 AI가 이해하지 못하는 경우가 많습니다. 실제 공격을 처음부터 끝까지 재현하는 데도 아직 성공하지 못하고 있습니다.

Q. 개발자나 보안 기업이 AI 에이전트를 어떻게 활용하는 것이 가장 효과적인가요? AI 에이전트는 보안 감사의 첫 번째 필터로 활용하는 것이 현실적입니다. 흔한 취약점 패턴을 빠르게 걸러내는 역할을 AI에 맡기고, 프로토콜 고유 지식과 판단이 필요한 심층 분석은 인간 전문가가 담당하는 협업 구조가 현재로선 가장 효과적입니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

이미지 출처: AI 생성 콘텐츠

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

이미지 출처: 이디오그램