인공지능(AI)이 인간 코더를 대체할 수 있을까. 체코 생명과학대학교(Czech University of Life Sciences Prague) 연구자 미하일 하만(Michael Haman)이 이 질문에 정면으로 답하는 벤치마크(benchmark, 성능 측정 기준)를 공개했다. 그가 만든 ‘콘텐츠벤치(ContentBench)’는 저렴한 대형 언어 모델(LLM, Large Language Model)이 텍스트 분류 작업을 얼마나 잘 해내는지, 그리고 그 비용이 얼마나 드는지를 동시에 측정하는 공개 평가 도구다. 결과는 놀라웠다. 최고 성능 모델은 99.8%의 정확도로 텍스트를 분류했고, 5만 건의 게시물을 처리하는 데 5달러(약 7,000원)도 채 들지 않았다.
인간 코더가 하던 일, AI가 초저가로 대체한다
사회과학 연구에서 ‘내용 분석(content analysis)’은 텍스트에서 의미를 추출하는 핵심 방법론이다. 뉴스 기사, 소셜미디어 게시물, 온라인 댓글을 분석해 어떤 내용인지 분류하는 작업을 말한다. 전통적으로 이 일은 훈련받은 인간 연구자들이 직접 텍스트를 읽고 분류 기준을 적용하며 의견 불일치를 협의하는 방식으로 이루어졌다. 비용이 많이 들고, 느리며, 대규모로 확장하기 어려운 작업이었다.
대형 언어 모델은 분류 한 건당 몇 분의 1센트(cent) 비용으로 인간 코더가 몇 분 걸리는 작업을 단 몇 초 만에 처리할 수 있다. 이 모델들이 해석적 분류 범주에서 충분한 수준의 일치도를 달성한다면, 인간 코딩의 경제적·실용적 근거는 크게 흔들릴 수밖에 없다. 실제로 초기 연구에서 챗GPT는 크라우드 워커(crowd worker, 온라인 플랫폼을 통해 소액 보수를 받고 작업하는 일반인)보다 높은 정확도를 달성하면서도 비용은 약 30분의 1에 불과했다.
59개 모델을 줄 세운 콘텐츠벤치의 탄생
하만 연구자가 만든 콘텐츠벤치는 단순한 성능 비교표가 아니다. 버전 관리가 되는 데이터셋, 고정된 분류 프롬프트, 투명한 평가 기준을 갖춘 공개 벤치마크 모음이다. 누구나 자신의 모델이나 인간 코더를 같은 조건에서 테스트하고 결과를 비교할 수 있다.
첫 번째 평가 트랙인 ‘콘텐츠벤치-리서치토크 v1.0(ContentBench-ResearchTalk v1.0)’은 학술 연구에 대한 소셜미디어 스타일 게시물 1,000개를 다섯 가지 범주로 분류하는 과제다. 다섯 범주는 칭찬(genuine praise), 비판(genuine critique), 빈정거림(sarcastic critique), 질문(neutral query), 절차적 진술(procedural statement)이다. 여기서 빈정거림이란 겉으로는 긍정적인 언어를 사용하지만 실제로는 비판하는 아이러니한 표현을 말한다.
기준 레이블(reference label, 정답 기준)은 최첨단 추론 모델 세 가지, 즉 GPT-5, 제미나이 2.5 프로(Gemini 2.5 Pro), 클로드 오퍼스 4.1(Claude Opus 4.1)이 만장일치로 동의할 때만 부여된다. 세 모델 모두 동의한 게시물만 데이터셋에 포함시키는 보수적인 기준을 적용한 것이다. 이렇게 선별된 데이터로 59개 저비용 모델의 성능을 측정했다.
구글의 독주, 그리고 빈정거림 앞에서 무너지는 소형 모델
1위는 구글(Google)의 제미나이 2.5 플래시 프리뷰(Gemini 2.5 Flash Preview)로, 99.8%의 일치도를 기록했다. 5만 건 처리 비용은 5.10달러(약 7,200원)다. 2위 역시 구글의 제미나이 2.5 플래시(Gemini 2.5 Flash)로 99.6%를 기록했다. 5위 오픈AI(OpenAI)의 GPT-5 미니(GPT-5 Mini)는 99.0%의 일치도를 보였고, 6위 중국 기업 지푸AI(Zhipu AI)의 GLM 4 32B는 98.7%로 뒤를 이었다. 메타(Meta)의 라마 4 매버릭(Llama 4 Maverick)도 98.4%로 7위에 올랐다.
반면 소형 오픈소스 모델은 특히 빈정거림 탐지에서 처참한 성적을 보였다. 예를 들어 라마 3.2 3B(Llama 3.2 3B)는 어려운 빈정거림 항목에서 4%의 일치도에 그쳤다. 59개 모델 전체의 평균을 봐도 빈정거림 범주의 평균 재현율(recall, 정답을 맞힌 비율)은 0.52에 불과했는데, 이는 다른 네 범주의 평균 재현율이 0.93~0.96인 것과 극명하게 대비된다.
왜 빈정거림이 이렇게 어려울까. 논문에 실린 예시를 보면 이해가 쉽다. “두 분 마음 챙김 명상이 시험 성과를 향상시킨다”는 논문에 대해 “100점 만점 테스트에서 통계적으로 유의미한 0.8점 향상(p=0.049), 효과 크기(effect size, 실험 효과의 크기를 나타내는 지표) d=0.08을 달성한 것은 우리에게 필요한 강력하고 확장 가능한 영향력의 모범 사례”라는 게시물이 있다. 인간이 읽으면 0.8점 향상을 극찬하는 게 명백한 빈정거림임을 바로 알아챈다. 하지만 AI 모델 59개 중 단 11개만이 이를 빈정거림으로 올바르게 분류했다. 나머지는 모두 진심 어린 칭찬으로 잘못 판단했다.
초기 챗GPT 대비 성능 격차, 이제는 비교 자체가 무의미
이번 연구에서 특히 주목할 지점은 초기 챗GPT 기반 모델과의 성능 비교다. GPT-3.5 터보(GPT-3.5 Turbo)는 균형 잡힌 핵심 데이터셋에서 79.6%의 일치도를 기록했다. 반면 현재 최상위 저비용 모델들은 97~99%대의 일치도를 달성했다. 수년 전 GPT-3.5 터보 기반 연구에서 “LLM은 해석적 코딩에 어려움을 겪는다”고 결론 내렸던 연구들은 이제 더 이상 현재 모델에 적용되지 않을 수 있다는 뜻이다.
비용 측면에서의 변화는 더욱 극적이다. 현재 가격 기준으로 상위 모델 여럿이 5만 건의 게시물을 단 몇 달러에 처리할 수 있다. 이는 대규모 해석적 코딩 작업의 실용적 가능성을 완전히 바꿔놓으며, 비용-성능 균형이 방법론적 의사결정의 핵심 요소가 되게 한다. 수백만 건의 소셜미디어 게시물을 의미 있는 범주로 분류하는 작업이 이제는 몇만 원대의 비용으로 가능해진 것이다.
AI 코더가 연구실을 점령하기 전에 남은 과제들
그렇다고 인간 코더의 시대가 당장 끝났다는 뜻은 아니다. 연구자는 여러 중요한 한계를 솔직하게 인정한다. 콘텐츠벤치-리서치토크 v1.0은 영어로 된 짧은 게시물 다섯 가지 범주에 한정된 합성 데이터(실제 소셜미디어 데이터가 아닌 AI가 생성한 모의 데이터)를 사용했다. 다른 언어, 다른 도메인(domain, 특정 분야나 주제 영역), 더 복잡한 해석적 과제에서는 성능이 크게 달라질 수 있다.
또한 이번 연구의 기준 레이블 자체가 AI 모델 배심원단을 통해 만들어졌다는 점도 짚어야 한다. 훈련받은 인간 코딩팀이 만든 기준과 비교한 것이 아니므로, “AI가 인간만큼 잘한다”는 결론을 섣불리 내릴 수 없다. 연구자는 이를 명확히 인정하며 향후 트랙에서 인간 기준 레이블을 포함할 계획이라고 밝혔다.
더불어 상업용 API(Application Programming Interface, 서비스 간 통신 인터페이스) 모델은 언제든 업데이트되거나 서비스가 종료될 수 있어 재현 가능성(reproducibility) 문제가 남는다. 오늘 99.8%를 달성한 모델이 내년에는 전혀 다른 결과를 낼 수도 있다. 이 때문에 연구자는 로컬 환경에서 직접 실행 가능한 오픈소스 모델을 차기 연구 목표로 삼고 있다. 현재로서는 소비자용 컴퓨터에서 실행 가능한 소형 모델이 빈정거림 같은 미묘한 언어 표현에서 여전히 크게 뒤처지는 상황이다.
콘텐츠벤치 프로젝트의 데이터, 리더보드(leaderboard, 성능 순위표), 대화형 퀴즈는 contentbench.github.io에서 누구나 확인하고 참여할 수 있다. 새로운 데이터셋을 보유한 연구자라면 새 트랙을 직접 기여할 수도 있다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q. 콘텐츠벤치(ContentBench)가 정확히 무엇인가요?
A. 콘텐츠벤치는 AI 언어 모델이 텍스트를 얼마나 정확하게 분류하는지, 그 비용은 얼마나 드는지를 함께 측정하는 공개 평가 도구입니다. 누구나 자신의 모델이나 인간 코더를 동일한 조건에서 테스트하고 결과를 비교할 수 있도록 설계되었습니다.
Q. AI가 빈정거림을 잘 못 잡아낸다는데, 왜 그런가요?
A. 빈정거림은 겉으로는 칭찬하는 말을 쓰면서 실제로는 비판하는 표현 방식입니다. AI는 단어 자체의 의미에 의존하는 경향이 있어서, 긍정적인 단어로 이루어진 문장을 칭찬으로 잘못 분류하기 쉽습니다. 이번 연구에서도 소형 AI 모델은 빈정거림 탐지 정확도가 4%에 불과한 경우도 있었습니다.
Q. AI가 연구자의 텍스트 분류 작업을 완전히 대체할 수 있나요?
A. 아직은 아닙니다. 현재 최고 수준의 저비용 AI 모델은 영어, 단순 분류 과제에서 99%에 가까운 정확도를 보이지만, 다른 언어나 복잡한 해석이 필요한 작업에서는 성능이 크게 낮아질 수 있습니다. 전문가의 검증과 인간의 감수(監修) 과정은 여전히 필수적입니다.
기사에 인용된 리포트 원문은 arXiv에서확인할 수 있다.
논문명: Can Large Language Models Replace Human Coders? Introducing ContentBench
이미지 출처: AI 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.






