• Home
  • AI Report
  • 생성형 AI, 텍스트 분석 전문가 대체 가능성 입증… “비용은 1/100 수준”

생성형 AI, 텍스트 분석 전문가 대체 가능성 입증… “비용은 1/100 수준”

Generative AI as a replacement for human coders in large-scale complex text analysis: New evidence from large language models
이미지출처: 이디오그램

LLMsoutperform outsourced human coders on complex textual analysis

텍스트 분석의 새로운 지평을 여는 LLM

텍스트 데이터는 현대 사회과학 연구에서 핵심적인 분석 대상으로 자리잡았다. 소셜미디어 게시물부터 정부 문서, 뉴스 기사에 이르기까지, 텍스트 데이터는 전통적인 수치 데이터로는 포착하기 어려운 사회현상을 연구할 수 있게 해준다. 그러나 대규모 텍스트 데이터의 분석은 여전히 큰 도전과제로 남아있다.

기존의 텍스트 분석 방법들은 각각의 한계를 보여왔다. 인간 코더를 활용한 수동 분석은 시간과 비용이 많이 들고 대규모 데이터에 적용하기 어렵다. 사전 기반 방법은 확장성은 좋지만 정확도가 떨어지며, 현대적인 지도학습 방법은 높은 프로그래밍 기술과 수동으로 레이블링된 훈련 데이터를 필요로 한다. 이러한 배경에서 연구진은 제로샷 러닝 도구로서 LLM의 가능성을 탐색했다.

LLM과 인간의 텍스트 분석 능력 비교 실험 설계

연구진은 210개의 스페인어 뉴스 기사를 대상으로 LLM과 인간 코더의 텍스트 분석 능력을 비교했다. 분석 대상 기사들은 스페인의 지방자치단체 재정 건전화 프로그램인 ‘공급업체 지불 프로그램(Supplier Payment Program)’에 관한 내용을 담고 있다. 선정된 기사들의 길이는 다양했는데, 10분위수가 185.7단어, 중앙값이 478단어, 90분위수가 887.3단어였다. 평균 508단어 길이의 기사들로, 복잡성과 주제 다양성 측면에서 차이를 보였다.

실험은 다양한 난이도의 자연어 처리 작업을 중심으로 진행됐다. 먼저 기사에 언급된 모든 지방자치단체명을 식별하고 그 개수를 계산하는 기본적인 작업이 이루어졌다. 이어서 지방자치단체에 대한 비판 내용이 있는지 파악하고, 있다면 그 비판의 출처와 대상을 구체적으로 식별하는 심화 분석이 수행됐다.

다양한 LLM 모델의 성능 평가

연구진은 OpenAI의 GPT-3.5-터보와 GPT-4-터보, Anthropic의 클로드 3 오퍼스와 클로드 3.5 소넷 등 네 가지 최신 LLM을 테스트했다. 각 모델은 모든 기사에 대해 두 번씩 분석을 수행했으며, 총 1,680회의 API 호출이 이루어졌다.

인간 코더 그룹으로는 ESADE 대학교 학생들이 참여했다. 이들은 스페인 맥락을 잘 이해하는 교육받은 집단으로, 일반적인 크라우드워커보다 높은 수준의 분석이 가능할 것으로 기대됐다. 총 146명의 참가자 중 86.3%가 스페인 국적자였으며, 나머지도 대부분 스페인에서 1년 이상 거주한 경험이 있어 맥락 이해에 필요한 배경지식을 갖추고 있었다.

LLM의 압도적 성능 우위 확인

분석 결과, 모든 LLM이 전 영역에서 인간 코더보다 우수한 성능을 보였다. 가장 기본적인 모델인 GPT-3.5-터보도 대부분의 작업에서 인간 코더를 능가하는 놀라운 결과를 보여줬다. 특히 맥락 이해가 필요한 고난도 작업에서도 LLM은 뛰어난 성능을 발휘했는데, 예를 들어 비판의 출처와 대상을 식별하는 복잡한 작업에서 클로드 3.5 소넷은 76.9%와 80.0%의 정확도를 보인 반면, 인간 코더는 49.5%와 51.7%의 정확도를 기록했다. 텍스트 길이가 길어질수록 인간과 LLM 모두 성능이 저하되는 경향을 보였으나, LLM은 긴 텍스트를 분석할 때도 인간이 짧은 텍스트를 분석할 때보다 더 나은 성능을 보여주었다. 참가자들은 평균적으로 17.43분 안에 세 개의 기사를 분석했으며, 90%가 33.38분 이내에 작업을 완료했다.

일관성과 비용 효율성 분석

분석 결과는 LLM의 압도적인 우위를 보여줬다. 인간 코더들도 무작위 응답 대비 통계적으로 유의미한 성능을 보였지만, 모든 LLM이 전 영역에서 이들을 능가했다. 특히 맥락 이해가 필요한 복잡한 작업에서도 LLM은 뛰어난 성능을 발휘했다. 클로드 3.5 소넷의 경우 비판의 출처와 대상 식별에서 각각 76.9%와 80.0%의 정확도를 보여, 인간 코더의 49.5%와 51.7%를 크게 앞섰다.

흥미로운 점은 인간 코더들이 두 번째 기사를 분석할 때 가장 높은 성능을 보이는 ‘U자형’ 학습 패턴을 보였다는 것이다. 이는 학습 효과와 피로도가 동시에 작용했음을 시사한다. 반면 LLM은 일관되게 높은 성능을 유지했다.

모델 간 비교에서는 최신 모델들이 통계적으로 유의미한 우위를 보였다. GPT-4-터보와 클로드 3.5 소넷은 대부분의 작업에서 GPT-3.5-터보를 능가했으며, 특히 클로드 3.5 소넷은 도시명 식별 작업에서 가장 우수한 성능을 보였다.

LLM은 비용 측면에서도 큰 강점을 보였다. GPT-3.5-터보는 기사당 0.20달러, GPT-4-터보는 3.46달러, 클로드 3 오퍼스는 8.53달러, 클로드 3.5 소넷은 2.28달러의 비용이 발생했다. 대규모 분석의 경우, 2만여 개의 기사를 GPT-3.5-터보로 분석하는 데 96달러와 이틀이 채 걸리지 않았다.

연구의 한계와 미래 전망

이 연구는 스페인어 뉴스 기사만을 대상으로 했다는 한계가 있다. 다른 언어나 텍스트 유형에 대한 LLM의 성능은 추가 검증이 필요하다. 또한 모델 업데이트에 따른 성능 변화도 주목할 만한 문제다. GPT-3.5-터보의 경우 2023년 10월과 2024년 4월 사이 일부 작업에서 성능이 저하되는 현상이 관찰됐는데, 이는 모델 업데이트가 항상 성능 향상으로 이어지지는 않음을 보여준다.

그럼에도 이 연구는 LLM이 전문적인 텍스트 분석 작업에서 인간을 대체할 수 있는 실용적 도구임을 입증했다는 점에서 큰 의의가 있다. 특히 프로그래밍 지식이 없는 연구자들도 간단한 API 호출만으로 고도의 텍스트 분석을 수행할 수 있다는 점은, 사회과학 연구 방법론의 혁신적인 변화를 예고한다.

기사에 인용된 논문의 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




생성형 AI, 텍스트 분석 전문가 대체 가능성 입증… “비용은 1/100 수준” – AI 매터스