Search

내 AI 에이전트가 자율 중고 거래 협상에서 졌는데 거래를 맡긴 사람은 그 사실조차 몰랐다

내 AI 에이전트가 자율 중고 거래 협상에서 졌는데 거래를 맡긴 사람은 그 사실조차 몰랐다
내 AI 에이전트가 자율 중고 거래 협상에서 졌는데 거래를 맡긴 사람은 그 사실조차 몰랐다

같은 합성 루비가 한쪽에서는 65달러에, 다른 쪽에서는 35달러에 팔렸다. 차이를 만든 건 물건이 아니라 그 거래를 맡은 AI 모델이었다. 앤트로픽(Anthropic)이 2026년 4월 24일 공개한 프로젝트 딜(Project Deal) 보고서는 AI 에이전트가 사람을 대신해 흥정하는 시장에서 더 똑똑한 모델을 쓴 사람이 객관적으로 더 좋은 거래를 했다는 사실을 보여준다. 더 불편한 발견은 따로 있다. 성능이 약한 모델에 당한 사람들은 자신이 손해를 봤다는 사실 자체를 알아채지 못했다.

앤트로픽 직원 69명이 AI에게 일주일간 거래를 맡긴 실험

프로젝트 딜은 앤트로픽이 자사 샌프란시스코 사무실에서 운영한 AI 에이전트 거래소 실험이다. 앤트로픽은 2025년 12월 직원 69명을 모집해 각자에게 100달러 예산을 주고, 각자의 클로드(Claude) 에이전트가 슬랙(Slack) 채널 안에서 자유롭게 물건을 팔고 사도록 했다. 사람은 처음에 10분이 채 안 되는 짧은 인터뷰로 자신이 팔 물건과 사고 싶은 물건, 협상 스타일을 알려준 뒤에는 일절 개입하지 않았다. AI가 매물을 올리고, 가격을 부르고, 역제안을 받고, 합의에 이르기까지 모든 과정을 자연어로 알아서 처리했다. 그렇게 일주일이 지나자 AI 에이전트들은 총 186건의 거래를 성사시켰고 누적 거래액은 4천 달러를 살짝 넘겼다.

거래된 물건은 스노보드부터 비닐봉지에 담긴 탁구공 19개까지 다양했다. 거래 공정성 평가는 1점(한쪽에 불리)부터 7점(반대쪽에 불리)까지의 척도에서 약 4점으로, 어느 쪽에도 치우치지 않은 중립값에 수렴했다. AI가 사람을 대신해 시장에서 흥정한다는 발상이 실험실이 아닌 실제 사람과 실제 물건 사이에서 작동한다는 점이 확인된 셈이다.

같은 물건도 오퍼스가 평균 3.64달러 더 비싸게 팔았다

AI 에이전트 시장에서 모델 품질은 객관적인 가격 차이를 만들었다. 앤트로픽은 당시 최상위 모델 클로드 오퍼스 4.5(Claude Opus 4.5)와 가장 작은 모델 클로드 하이쿠 4.5(Claude Haiku 4.5)를 무작위로 섞어 두 차례 운영했다. 결과는 ㄱ의 우위로 기울었다. 오퍼스를 쓴 사람은 하이쿠를 쓴 사람보다 평균 2.07건 더 많은 거래를 성사시켰고 통계적 유의성도 분명했다.

같은 물건이 두 번 팔린 사례를 짝지어 비교했더니 오퍼스가 판 경우 평균 3.64달러 더 비쌌다. 보고서에 등장하는 랩그로운 루비(lab-grown ruby)의 사례가 가장 직관적이다. 오퍼스 에이전트는 60달러부터 시작해 여러 구매자의 입찰을 받아 65달러에 팔았다. 같은 루비를 맡은 하이쿠 에이전트는 40달러를 부른 뒤 35달러 가격까지 깎였다. 망가진 자전거도 오퍼스는 65달러에 팔았지만 하이쿠는 38달러밖에 받지 못했다. 오퍼스는 판매자로 같은 물건을 평균 2.68달러 더 비싸게 팔았고 구매자로는 평균 2.45달러 더 싸게 샀다. 거래 한 건의 중간값이 12달러, 평균이 20.05달러인 시장에서 한 건당 몇 달러의 차이는 결코 작은 격차가 아니다. AI 에이전트 시장에서 모델 격차가 곧 가격 격차로 이어진다는 사실이 실제 사람과 실제 물건을 동원한 마켓플레이스 환경에서 재차 확인된 것이다.

약한 모델 쓴 사람들이 손해를 알아채지 못한 이유

가장 불편한 발견은 데이터가 아니라 사람의 인식에서 나왔다. 오퍼스와 하이쿠를 한 번씩 경험한 28명에게 두 번의 결과 묶음을 비교 평가하게 했더니 17명만 오퍼스 결과를 더 높게 평가했고 11명은 오히려 하이쿠 결과를 더 좋다고 평가했다. 동전 던지기와 통계적으로 구분되지 않는 결과다. 거래 만족도 점수도 오퍼스가 0.217점 높았을 뿐이며 통계적으로 유의미한 차이가 아니었다. 거래 공정성 점수는 오퍼스가 4.05점, 하이쿠가 4.06점으로 사실상 동일했다. 다시 말해 사람들은 자신을 대신한 AI가 더 적게 받고 더 많이 지불했다는 사실을 객관적으로는 손해 보고 있으면서도 주관적으로는 인지하지 못했다.

보이지 않는 격차(Invisible Inequality)란 모델 성능의 차이가 사용자 본인에게 감지되지 않은 채로 시장 결과에만 반영되는 현상을 말한다. 만약 이런 격차가 실제 시장에서 본격적으로 벌어진다면 더 좋은 모델을 쓸 형편이 안 되는 사람일수록 자신이 불리한 거래를 하고 있다는 사실조차 알기 어렵다는 뜻이 된다. 앤트로픽도 이 점에 대해 “완전히 에이전트화된 경제가 조용히 불평등을 키울 수 있는지를 알기 위해 더 많은 연구가 필요하다”고 적었다.

공격적 협상 지시는 통하지 않았고 모델 품질만이 결정했다

흥미로운 발견 하나는 사람이 AI에게 어떻게 협상하라고 시켰는지가 거의 영향을 주지 못했다는 점이다. 어떤 참가자는 클로드에게 “동료들과 거래할 거니까 깐깐한 사람으로 보이지 않게 친절하게 협상하라”고 지시했고, 어떤 참가자는 “살 때는 강하게 협상하고 처음에는 낮게 부르라”고 시켰다. 그러나 공격적으로 협상하라는 지시 자체가 판매 성사율, 판매 가격, 구매 가격 어느 쪽에도 통계적으로 유의한 영향을 주지 않았다. 공격적 판매자가 약 6달러 더 비싸게 팔긴 했지만 그 격차의 거의 전부는 그들이 인터뷰 단계에서 호가를 평균 26달러 더 높게 불렀다는 사실에서 나왔다.

한편 한 직원은 클로드에게 “운수 사납고 지친 카우보이의 말투로 흥정하라”고 시켰고, 클로드는 “황량한 들판의 실존적 무게”를 운운하며 강아지 인형 옆에서 한 편의 카우보이 모놀로그를 풀어놓았고, 결국 인형을 팔아치웠다. 지시 그 자체는 잘 따랐다는 뜻이다. 다만 협상 결과를 결정한 것은 사람의 지시문이 아니라 어떤 모델이 그 지시를 실행했느냐였다. 사람이 자신의 거래 결과에 영향을 미칠 수 있는 가장 확실한 변수는 협상 전략이 아니라 더 좋은 모델에 접근할 수 있는 권한이라는 메시지가 된다.

AI 에이전트 경제가 만들 보이지 않는 격차

이번 실험은 자발적 참여자 69명을 대상으로 한 소규모 파일럿이지만 시사점은 가볍지 않다. 참가자의 46%가 비슷한 서비스가 있다면 돈을 내고 쓰겠다고 답한 것은 AI 에이전트 거래의 시장성이 이미 일정 수준 입증됐다는 의미다. 동시에 같은 실험은 더 강한 모델을 쓸 수 있는 사람과 그렇지 않은 사람 사이에 측정 가능한 시장 격차가 발생할 수 있고, 그 격차가 패자에게 보이지 않는 형태로 나타난다는 가능성도 함께 보여줬다. 앤트로픽은 보고서 마지막에 기업이 운영하는 실제 AI 에이전트 시장에서는 광고가 사람의 주의를 사로잡으려 했듯이 AI 에이전트의 주의를 사로잡으려는 최적화가 새로운 무기가 될 수 있고, 탈옥(Jailbreaking)과 프롬프트 주입(Prompt Injection) 같은 보안 위협이 거래 영역으로 옮겨올 수 있다고 경고했다.

한국 소비자에게도 결코 먼 이야기가 아니다. 가까운 미래에 우리가 AI 비서에게 보험 갱신, 중고 거래, 호텔 예약 같은 협상을 맡긴다고 했을 때 어떤 모델을 고용하느냐가 통신비 등급처럼 시장 결과를 가르는 새로운 등급이 될 가능성이 있다. 사용자가 본인의 손해를 인지하지 못한 채 격차가 누적될 수 있다는 점은 두고 볼 필요가 있다. 정책과 법 제도가 이 변화를 따라잡기 전에 AI 에이전트 경제가 먼저 도착할 가능성이 높다는 것이 이 보고서의 가장 강력한 결론이다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 프로젝트 딜은 어떤 실험인가요?
앤트로픽이 2025년 12월 자사 직원 69명에게 100달러씩 예산을 주고, 각자의 AI 에이전트(클로드)가 일주일간 슬랙 채널에서 자유롭게 물건을 사고팔게 한 실험입니다. AI 에이전트가 사람을 대신해 시장에서 흥정하는 세상을 미리 본 파일럿 연구입니다.

Q2. 오퍼스 4.5와 하이쿠 4.5의 차이는 얼마나 컸나요?
오퍼스를 쓴 사람은 하이쿠를 쓴 사람보다 평균 2.07건 더 많이 거래했고, 같은 물건도 오퍼스가 팔면 평균 3.64달러 더 비싸게 팔렸습니다. 오퍼스는 판매자로 평균 2.68달러 더 받고, 구매자로는 평균 2.45달러 더 적게 지불했습니다.

Q3. 사용자에게 가장 중요한 시사점은 무엇인가요?
약한 AI 에이전트를 쓴 사람들이 객관적으로 손해를 봤음에도 본인은 그 사실을 알아채지 못했다는 점입니다. 앞으로 AI 에이전트 경제가 본격화되면 어떤 모델에 접근할 수 있느냐가 새로운 시장 격차의 변수가 될 수 있고, 그 격차는 본인에게 잘 보이지 않을 가능성이 높습니다.

기사에 인용된 리포트 원문은 앤트로픽에서 확인할 수 있다.
리포트명: Project Deal (Anthropic, 2026년 4월 24일 발표)
이미지 출처: AI 생성 콘텐츠
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

함샤우트 글로벌_우리는 광고비 없이 AI로 팝니다 이벤트 안내 기사 배너