소셜미디어 플랫폼 X(구 트위터)가 운영하는 대표적인 크라우드소싱 팩트체크 시스템인 커뮤니티 노트(Community Notes)가 건강 관련 허위정보에 대응하는 데 심각한 지연 문제를 겪고 있다. 싱가포르 국립대학교 연구팀이 3만 791개의 건강 관련 노트를 분석한 결과, 첫 번째 노트가 작성된 후 ‘유용함’ 또는 ‘유용하지 않음’ 판정을 받기까지 중간값 기준 7.2시간이 소요되는 것으로 나타났다. 이에 연구팀은 대규모 언어모델(LLM)을 활용해 커뮤니티 노트의 속도와 신뢰성을 동시에 높이는 새로운 프레임워크 ‘크라우드노트플러스(CrowdNotes+)’를 제안했다.
허위정보 대응 지연과 87.9%의 노트가 평가조차 받지 못하는 현실
연구팀은 2021년부터 2025년까지 4년간 수집한 3만 791개의 건강 관련 커뮤니티 노트를 분석했다. 이 노트들은 2만 5,484개의 잠재적으로 오해의 소지가 있는 게시물에 달린 것이다. 분석 결과 게시물이 게시된 후 첫 번째 노트가 작성되기까지 중간값 기준 10.4시간이 소요됐다. 이후 해당 노트가 첫 번째 유용성 판정받기까지 추가로 7.2시간이 걸렸다. 더 심각한 문제는 전체 노트의 87.9%가 충분한 투표를 받지 못해 어떤 상태도 얻지 못한다는 점이다. X 플랫폼에서는 ‘유용함’ 판정을 받은 노트만 대중에게 공개되기 때문에, 이러한 지연은 대중의 관심이 가장 집중된 시점에 정정 정보의 적시성을 크게 떨어뜨린다.
연구팀의 시계열 분석에 따르면 건강 관련 허위정보는 실제 세계의 주요 건강 이벤트와 밀접하게 연동돼 급증한다. 2023년 10월부터 12월 사이 백신 관련 게시물이 급증했고, 2023년 12월 13일에는 코로나19 백신 관련 콘텐츠가, 2024년 11월 14일에는 트럼프와 케네디 관련 백신 이슈가, 2025년 1월 29일에는 트럼프와 메디케이드 관련 콘텐츠가 급증했다. 이는 발병 발표, 백신 정책 변경, 주요 공중보건 논쟁 등 외부 사건에 신속하게 반응하는 허위정보의 특성을 보여준다.
LLM이 쓴 노트가 사람보다 정확하다, 15개 모델 실험으로 입증
크라우드노트플러스는 두 가지 보완적 모드를 통합한다. 첫째는 증거 기반 노트 증강(Evidence-Grounded Note Augmentation)으로, 사람이 제공한 증거(URL 형태)를 LLM이 구조화된 노트로 합성한다. 둘째는 유틸리티 기반 노트 자동화(Utility-Guided Note Automation)로, LLM이 자율적으로 계획을 수립하고 고품질 증거를 검색 및 선택한 후 노트를 생성한다. 이와 함께 3단계 계층적 평가 파이프라인을 도입해 검색된 증거의 관련성, 증거 제시의 정확성, 생성된 노트의 전반적 유용성을 순차적으로 검증한다.
연구팀은 이 프레임워크를 건강 도메인에 특화한 헬스노트(HealthNotes) 벤치마크를 통해 구현했다. 이 벤치마크는 크라우드가 확인한 ‘유용함’ 및 ‘유용하지 않음’ 상태를 가진 1천268개의 건강 관련 커뮤니티 노트로 구성되며, 노트 유용성 평가를 위해 미세 조정된 헬스저지(HealthJudge) 모델이 포함된다.
GPT-4.1, 클로드-4-오푸스(Claude-4-Opus), 제미나이-2.5-프로(Gemini-2.5-Pro), o3 등 폐쇄형 대규모 추론 모델(LRM)과 LLM, 큐웬3(Qwen3), 라마-3.1(Llama-3.1), 미니스트랄(Ministral) 등 오픈소스 LLM, 그리고 의료 특화 LLM인 링슈(Lingshu), 메드제마(MedGemma)까지 총 15개 대표 모델을 대상으로 한 실험 결과, 14B 파라미터 이상의 모델들이 유용성 측면에서 사람이 작성한 노트를 능가했다. 특히 추론 기능이 활성화된 o3 모델이 전체적으로 가장 높은 점수를 기록했으며, 명시적 추론 추적이 노트 생성을 향상시킨다는 것을 보여줬다. 의료 특화 모델인 메드제마-27B는 범용 LLM인 큐웬3-32B보다 일관되게 높은 성능을 보였다.
인간 평가의 맹점을 발견하다, 유창함을 정확성으로 착각
연구의 가장 주목할 만한 발견 중 하나는 현재 커뮤니티 노트의 인간 투표 시스템에서 간과된 중대한 허점이다. 크라우드가 100% ‘유용함’으로 평가한 노트의 73.19%만이 새로운 프레임워크의 최종 유용성 평가를 통과했다. 관련성 측면에서는 11.7%, 정확성 측면에서는 14.0%의 하락이 나타났다. 흥미롭게도 ‘유용하지 않음’으로 평가된 노트에 대해서는 연구팀의 프레임워크가 인간 판단과 거의 일치했다.
연구팀이 관련성은 있지만 정확하지 않다고 평가한 89개의 노트를 심층 분석한 결과, 세 가지 주요 오류 패턴이 발견됐다. 증거 지원 부족(인용된 출처가 노트의 주장을 뒷받침하지 않음)이 가장 많았고, 출처 콘텐츠 오해석, 과도한 일반화가 그 뒤를 이었다.
이러한 결과는 인간 투표자들이 종종 사실적 엄밀성보다 문체적 유창함을 보상한다는 것을 시사한다. 예를 들어 한 게시물이 미국심장협회(AMA)가 백신 접종 인구의 90%가 코로나19 백신으로 인한 비가역적 심장 질환을 앓고 있다고 경고했다는 주장을 담았다. 인간이 작성한 노트는 미국심장협회 웹사이트를 인용했지만, 해당 URL은 심장 질환 위험 및 예방에 관한 일반 정보만 포함했을 뿐 코로나19 백신이나 관련 영향에 대해서는 언급하지 않았다. 그럼에도 불구하고 이 노트는 크라우드 투표에서 ‘유용함’ 판정을 받았지만, 크라우드노트플러스는 관련 없는 증거 인용을 근거로 ‘유용하지 않음’으로 정확히 판단했다.
같은 증거로도 LLM이 더 완전한 노트를 작성한다
사람이 제공한 증거를 사용해 노트를 생성할 때, LLM은 같은 출처를 사용하는 사람이 작성한 노트보다 일관되게 더 높은 정확성을 달성했다. 이는 더 강력한 사실적 정렬과 감소된 왜곡을 나타내며, LLM이 더 균형 잡히고 맥락적으로 근거가 있는 설명을 합성한다는 것을 보여준다.
한 사례에서 라이언 콜(Ryan Cole) 박사가 코로나19 백신이 암 급증을 일으켰다고 주장하는 게시물에 대해, 사람이 작성한 노트는 “코로나19 시작 이후 실제로 암 발생률이 감소했다”고만 기술했다. 이는 제공된 퍼브메드(PubMed) 연구를 잘못 해석한 것으로, 해당 연구는 실제 암 발생률 감소가 아니라 팬데믹 기간 동안 의료 접근성 감소로 인한 암 진단 감소를 보고했다. 반면 크라우드노트플러스(GPT-4.1)는 “코로나19 백신이 암 발생률 증가를 초래했다는 증거는 없다. 연구들은 팬데믹 기간 동안 의료 접근성 감소로 인한 일시적 암 진단 감소를 보여준다”고 정확하게 설명했다.
자동화 모드의 성능 향상 요인을 이해하기 위해 연구팀은 제거 실험(ablation study)을 수행했다. 다양한 쿼리 생성 또는 유틸리티 판단 중 하나를 제거하면 전체 유용성이 크게 저하됐다. 쿼리 다양성은 증거 풀을 확장하고, 유틸리티 판단은 고품질 출처를 필터링하여 함께 일관성 있고 근거가 확실한 노트를 가능하게 한다.
LLM이 선택한 증거가 인간보다 권위적이다, 출처 선호도 비교 분석
연구팀은 LLM과 인간이 증거를 선택하는 방식의 차이도 분석했다. 인간 기여자들은 뉴스 매체, 소셜 미디어, 일반 건강 포털에 더 의존하는 반면, LLM은 보건 기관(Health Authorities)과 같은 권위 있는 도메인을 선호했다. 이는 LLM이 기관 및 증거 기반 출처를 우선시해 더 사실에 근거한 노트를 생성한다는 것을 보여준다.
헬스노트의 전체 1,268개 샘플에 대해 인간이 제공한 증거와 크라우드노트플러스가 검색한 증거 간 쌍별 평가를 수행한 결과, 크라우드노트플러스는 o3 모델 사용 시 65.85%, 메드제마-27B 사용 시 57.57%의 승률을 기록해 인간의 증거 선택과 동등하거나 더 나은 성능을 보였다.
LLM이 선택한 증거가 인간 증거보다 선호도가 낮은 경우를 분석하기 위해, 연구팀은 먼저 100건의 사례를 검토해 네 가지 주요 원인을 식별했다. 약한 주장 근거(LLM이 핵심 주장을 포착하지 못하거나 직접 관련된 증거를 검색하지 못함), 출처 품질 판단 미흡(LLM이 모든 출처를 동등하게 취급하며 신뢰성이나 권위를 구별하지 못함), 제한된 청중 적응(LLM이 검색한 출처가 일반 독자에게 지나치게 기술적이거나 접근하기 어려움), 불충분한 증거 포괄성(LLM이 여러 출처를 일관된 결론으로 통합하지 못함)이 그것이다. o3의 경우 285건 중 약한 주장 근거와 출처 품질 판단 미흡이 가장 많았고, 메드제마-27B의 경우 421건 중 비슷한 패턴을 보였다.
커뮤니티 노트의 미래는 인간-AI 하이브리드 거버넌스
연구팀은 실험 결과가 커뮤니티 노트에 LLM을 통합하면 평가와 생성 모두를 실질적으로 개선할 수 있음을 시사한다고 밝혔다. X 커뮤니티 노트 팀이 구상하는 하이브리드 모델에서는 인간과 LLM이 공동으로 노트를 작성하고 인간이 유용성에 투표하지만, 연구 분석에 따르면 인간 투표는 종종 사실적 정확성보다 유창함을 보상한다. 제안된 계층적 평가 파이프라인은 관련성, 정확성, 유용성에 대한 단계별 검증을 시행함으로써 이러한 편향을 완화해 더 신뢰할 수 있고 해석 가능한 평가를 제공한다.
유틸리티 기반 검색의 강력한 결과는 부분 자동화가 노트 생성을 가속화할 수 있음을 입증한다. 의도 인식 검색 및 쿼리 다양화와 같은 향후 개선 사항은 맥락적 근거를 더욱 향상시킬 수 있다. 전반적으로 연구 결과는 LLM이 사실적 엄밀성과 적시성을 보장하고 인간 기여자가 감독과 다원적 판단을 제공하는 하이브리드 거버넌스 모델을 제시한다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q. 커뮤니티 노트가 건강 허위정보 대응에 느린 이유는 무엇인가요?
A. 잠재적으로 오해의 소지가 있는 게시물이 올라온 후 첫 번째 노트가 작성되기까지 평균 10.4시간, 그 노트가 유용성 판정을 받기까지 추가로 7.2시간이 걸립니다. 또한 전체 노트의 87.9%는 충분한 투표를 받지 못해 평가조차 받지 못하는 상태입니다.
Q. LLM이 작성한 노트가 사람이 쓴 노트보다 정확한가요?
A. 네, 실험 결과 14B 파라미터 이상의 LLM 모델들이 같은 증거를 사용할 때 사람이 작성한 노트보다 높은 정확성을 보였습니다. LLM은 증거를 더 균형 있고 맥락에 맞게 합성하며, 사실적 왜곡을 줄이는 것으로 나타났습니다.
Q. 크라우드노트플러스는 어떻게 증거를 평가하나요?
A. 3단계 계층적 평가를 사용합니다. 먼저 검색된 증거의 관련성을 확인하고, 다음으로 증거 제시의 정확성을 검증하며, 마지막으로 생성된 노트의 전반적 유용성을 평가합니다. 각 단계를 통과해야만 다음 단계로 진행됩니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문명: Beyond the Crowd: LLM-Augmented Community Notes for Governing Health Misinformation
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.