인공지능(AI) 챗봇 GPT-4o가 경제 전문가들과 비슷한 수준으로 경기 전망을 내놓을 수 있다는 연구 결과가 나왔다. 하지만 AI에게 “당신은 경제학 박사입니다”처럼 자세한 역할을 부여하는 복잡한 질문 방식은 예측 정확도를 높이는 데 전혀 도움이 되지 않았다. 이탈리아 중앙은행 연구진이 발표한 이번 연구는 AI 기반 경제 예측 시스템을 만들 때 어떤 점에 집중해야 하는지 중요한 힌트를 제공한다.
2,368가지 ‘경제 전문가 캐릭터’로 12년 치 경제 예측 실험
연구진은 PersonaHub라는 3억 7천만 개의 전문가 설명을 담은 데이터베이스에서 경제학과 관련된 2,368개의 전문가 캐릭터를 뽑아냈다. 이 캐릭터들은 “유럽 중앙은행 정책을 연구하는 경제학자” 같은 식으로 각각 다른 전문 분야를 가진 가상의 인물들이다. 연구진은 이 캐릭터들을 GPT-4o에 입력해 유럽중앙은행(ECB)이 실제로 진행하는 ‘전문 예측가 설문조사(SPF)’를 따라 해 보았다.
2013년 1분기부터 2025년 2분기까지 분기마다 진행된 50회의 설문을 재현했고, 조화소비자물가지수(HICP) 인플레이션, 근원 HICP, 실질 GDP 성장률, 실업률 등 4개 주요 경제 지표를 예측하게 했다. 이 과정에서 총 118,400개의 AI 예측값이 만들어졌다. 특히 2024년 1분기부터 2025년 2분기까지의 데이터는 GPT-4o의 학습 컷오프 시점인 2023년 10월 이후의 경제 상황이어서, AI가 전혀 학습하지 못한 미래를 얼마나 잘 예측하는지 확인할 수 있었다.
“경제학자 역할” 부여해도 예측력 그대로… 프롬프트 복잡하게 만들 필요 없어
연구에서 가장 놀라운 발견은 AI에게 자세한 역할 설명을 해줘도 예측 성능이 나아지지 않는다는 점이었다. 연구진은 상세한 페르소나 설명을 포함한 질문과, 페르소나 설명 없이 기본적인 과제 설명만 제공한 100개의 베이스라인 질문을 비교했다.
100개의 기본 질문으로 5,000개의 예측값을 만들어 비교 분석한 결과, 두 방식 사이에 통계적으로 의미 있는 차이가 전혀 발견되지 않았다. 통계 분석 결과 오차 분포가 사실상 구별 불가능한 것으로 나타났다. 이는 정교한 페르소나 엔지니어링이 예측 정확도에 기여하지 않으며, 계산 비용 절감을 위해 생략할 수 있음을 시사한다. 연구진은 모델 성능이 질문의 정교함보다는 데이터 품질과 과제 구조화에 더 크게 의존한다고 분석했다.
AI와 인간 전문가, 예측 정확도는 비슷… 하지만 AI는 ‘만장일치’ 경향 뚜렷
평균절대오차(MAE)를 분석한 결과, AI와 실제 경제 전문가들의 정확도는 놀랍도록 유사했다. 표본 내 데이터(2013-2023년)의 16개 비교 항목 중 7개에서 완전히 똑같은 오차를 기록했고, 나머지도 대부분 근소한 차이만 보였다. 일부 분야에서는 AI가 더 정확했다. 예를 들어 2년 후 GDP 성장률 예측에서 AI의 오차는 0.60이었고 인간은 0.90이었다. 표본 외 데이터(2024-2025년)에서 올해 실업률 예측에서도 AI가 0.05로 인간의 0.15보다 3배 정확했다. 반면 인간이 더 잘한 분야도 있었다. 표본 내 데이터의 올해 실업률 예측에서 인간은 0.10, AI는 0.20의 오차를 보였고, 표본 외 데이터의 올해 HICP 인플레이션 예측에서도 인간이 0.01로 AI의 0.10보다 훨씬 정확했다.
흥미로운 점은 AI 예측자들의 의견 차이가 인간보다 극도로 작았다는 것이다. 2,368개의 다른 캐릭터를 사용했는데도 AI가 내놓은 예측값들은 거의 비슷했다. AI 페르소나들의 의견 분산은 인간 전문가들보다 약 2자릿수 낮은 수준이었다. 인간 전문가들은 같은 질문에도 상당한 의견 차이를 보였지만, AI는 다양한 캐릭터 설정에도 불구하고 상당히 동질적인 예측값으로 수렴하는 경향을 보였다.
학습 안 한 미래 경제도 잘 맞춰… 단, 분야별로 장단점 달라
승률 분석 결과, AI와 인간의 성능 차이는 통계적으로 유의미했지만 실질적으로는 미미한 수준이었다. 모든 비교에서 통계적 유의성이 나타났지만, 많은 경우 승률 차이가 상대적으로 좁았다. 특히 인플레이션 예측에서는 승률 차이가 종종 작은 폭에 그쳤다. 경제 지표별로 보면 AI는 근원 인플레이션(HICPX) 예측에서 대부분의 예측 기간에 걸쳐 일관되게 우수한 성과를 보였다. 반면 인간은 단기 GDP 성장률과 실업률 예측에서 우위를 보였지만, 이 우위는 예측 기간이 길어질수록 점차 감소했다.
표본 외 데이터 결과는 더 불안정한 양상을 보였으며, 표본 내 데이터와 비교해 일부 성과 역전 현상이 관찰됐다. 제한된 표본 외 관측치로 인해 이러한 역전 현상이 진정한 성능 차이를 반영하는 것인지, 2021년 이후 기간의 구조적 변화인지, 아니면 단순히 소표본 변동성인지 판단하기 어렵다. 중요한 점은 GPT-4o가 학습 데이터에 전혀 포함되지 않은 2024~2025년 경제 상황에 대해서도 경쟁력 있는 예측 성능을 유지했다는 것이다.
표본 내 기간 대비 주목할 만한 차이가 있었지만, 표본 내 기간에서 표본 외 기간으로의 전환에서 체계적인 성능 저하는 나타나지 않았다. 이는 모델이 관련 맥락 데이터가 제공되면 단순히 암기된 패턴에 의존하기보다는 프롬프트에 제공된 실시간 경제 맥락 정보를 효과적으로 활용한다는 것을 시사한다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. ‘페르소나 프롬프팅’이 뭔가요? 왜 효과가 없었나요?
A: 페르소나 프롬프팅은 AI에게 “당신은 거시경제학과 국제무역을 전문으로 하는 정치경제학자입니다”처럼 구체적인 전문가 역할을 부여하는 상세한 설명을 프롬프트에 포함시키는 기법입니다. 이번 연구에서는 2,368개의 서로 다른 경제 전문가 페르소나를 사용했지만, 이러한 정교한 설명이 예측 정확도 향상에 전혀 기여하지 못했습니다. 예측 성능은 프롬프트의 복잡성보다는 제공되는 데이터의 품질과 과제 구조화 방식에 더 크게 의존하는 것으로 나타났습니다.
Q2. GPT-4o의 경제 예측은 얼마나 정확한가요?
A: 실제 경제 전문가들과 거의 같은 수준입니다. 예를 들어 물가 상승률을 예측할 때 AI의 평균 오차는 0.20, 인간 전문가는 0.19로 거의 차이가 없었습니다. 어떤 분야에서는 AI가 더 잘했고(2년 후 GDP 성장률 예측에서 0.60 대 0.90) 어떤 분야에서는 인간이 더 잘했지만(표본 내 올해 실업률 예측에서 0.20 대 0.10), 전체적으로는 통계적으로 유의미하지만 실질적으로는 미미한 차이를 보였습니다.
Q3. AI 예측자들의 ‘의견 분산이 낮다’는 게 무슨 뜻인가요?
A: 2,368개의 서로 다른 전문가 캐릭터를 사용했는데도 AI가 내놓은 예측값들은 거의 비슷했다는 뜻입니다. AI 페르소나들의 의견 분산은 실제 인간 전문가들보다 약 2자릿수 낮은 수준을 보였습니다. 이는 다양한 페르소나 프롬프트에도 불구하고 모델이 상당히 동질적인 예측값으로 수렴하며, 인간 패널과 비교해 극도로 낮은 의견 불일치를 보인다는 것을 의미합니다. 이는 현재 LLM 기술이 진정한 의견 다양성을 생성하는 데 제한적 민감성을 가지고 있음을 시사하며, 실제 예측 시스템 구축 시 고려해야 할 중요한 행동 특성입니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문명: Prompting for Policy: Forecasting Macroeconomic Scenarios with Synthetic LLM Personas
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.






![[AI 툴 활용팁] "3만원 내고도 반만 쓴다?" 챗GPT 초보들은 모르는 숨은 설정 6가지](https://aimatters.co.kr/wp-content/uploads/2025/10/AI-매터스-기사-썸네일-gpt-활용법.jpg)
