• Home
  • AI Report
  • AI 에이전트, 가짜 뉴스 대응의 새 무기 될 수 있나?

AI 에이전트, 가짜 뉴스 대응의 새 무기 될 수 있나?

AI 에이전트, 가짜 뉴스 대응의 새 무기 될 수 있나?
이미지 출처: 이디오그램 생성

Assessing the Potential of Generative Agents in Crowdsourced Fact-Checking

오늘날 소셜미디어를 통해 허위정보가 빠르게 확산되는 상황에서 효과적인 팩트체킹 방법은 그 어느 때보다 중요해졌다. 최근 나폴리 페데리코 2세 대학교와 노스웨스턴 대학교 연구진은 생성형 AI 에이전트를 활용한 집단 팩트체킹 가능성을 탐색한 흥미로운 연구 결과를 발표했다. 연구팀은 기존의 크라우드소싱 방식 팩트체킹에 대한 대안으로 대규모 언어 모델(LLM)을 기반으로 한 생성형 에이전트의 잠재력을 평가했다.

이 연구에서 생성형 에이전트란 인간의 행동과 의사결정을 모방하는 자율적 AI 시스템을 의미한다. 연구진은 다양한 인구통계학적, 이념적 특성을 가진 여러 에이전트로 구성된 인공 ‘집단’을 만들어 실제 인간 집단과 팩트체킹 성능을 비교했다. 결과는 놀라웠다. AI 에이전트 집단이 정확성, 일관성, 객관성 등 여러 측면에서 인간 집단보다 우수한 성능을 보인 것이다.

집단지성의 새로운 패러다임: AI 에이전트가 팩트체킹에 변화 가져온다

연구팀은 50개의 생성형 에이전트를 설계하여 총 70개의 정치·사회적 진술을 평가했다. 각 에이전트는 성별, 나이, 인종, 교육 수준, 정치적 성향 등 실제 인간 참가자들의 특성을 반영하도록 설계되었다. 또한 연구팀은 라마 3.1(Llama 3.1 8B), 젬마 2(Gemma 2 9B), 미스트랄(Mistral 7B) 등 세 가지 다른 언어 모델을 사용하여 각 모델의 성능도 비교했다.

에이전트들은 두 가지 핵심 작업을 수행했다. 첫째, 주어진 진술을 검증하기 위해 웹페이지 목록에서 가장 관련성 높은 증거를 선택했다. 둘째, 정확성, 불편부당성, 이해도, 정밀성, 완전성, 화자의 신뢰성, 정보성 등 다양한 품질 측면에서 진술을 평가하고 최종적으로 진위 여부를 판단했다.

AI 에이전트, 가짜 뉴스 대응의 새 무기 될 수 있나?
이미지 출처: Assessing the Potential of Generative Agents in Crowdsourced Fact-Checking

인간보다 뛰어난 AI 에이전트의 판단력: 정확성과 일관성에서 우위

연구 결과, 생성형 에이전트 집단은 사실 판별에 있어 인간 집단보다 더 높은 정확도를 달성했다. 특히 라마 3.1 모델을 사용한 에이전트들은 2단계 진실성 척도(참/거짓)에서 95.7%의 정확도를 보였는데, 이는 인간 집단의 88.5%보다 높은 수치다. 6단계 진실성 척도에서도 에이전트들은 인간보다 더 높은 성능을 보였다.

또한 에이전트들은 내부 일관성에서도 탁월했다. 크리펜도르프 알파(Krippendorff’s alpha) 계수로 측정한 내부 일치도에서 에이전트들은 0.845 이상의 높은 값을 보인 반면, 인간 집단은 0.154의 낮은 값을 기록했다. 이는 에이전트들이 일관된 기준으로 판단하는 반면, 인간들은 개인적 해석과 주관에 따라 더 많은 변동성을 보인다는 의미다.

생성형 에이전트의 의사결정 메커니즘: 논리적 접근이 강점

연구진은 에이전트와 인간이 어떤 요소를 기반으로 진위 판단을 내리는지도 분석했다. 흥미롭게도 에이전트들은 정확성(Accuracy), 정밀성(Precision), 정보성(Informativeness) 등 객관적이고 정보적인 기준에 더 체계적으로 의존하는 경향을 보였다. 이러한 차원들은 에이전트들의 최종 평가와 더 강한 상관관계를 보였다.

반면 인간 평가자들은 평가 기준 사용에 있어 더 큰 변동성을 보였으며, 특히 중간 단계의 진실성을 평가할 때 일관성이 떨어졌다. 이는 에이전트들이 더 구조화되고 체계적인 의사결정 과정을 따른다는 것을 시사한다.

편향 없는 판단: 인구통계학적 요인에 영향 받지 않는 AI 에이전트

또 하나 주목할 만한 발견은 생성형 에이전트들이 인구통계학적, 이념적 프로필에 따른 성능 변화를 거의 보이지 않았다는 점이다. 인간 평가자들은 나이, 성별, 정치적 성향 등에 따라 상당한 불일치를 보인 반면, 에이전트들의 응답은 시뮬레이션된 사용자 속성에 관계없이 일관된 결과를 보였다.

이는 생성형 에이전트가 인간 기반 크라우드소싱에 내재된 특정 편향을 줄일 수 있음을 시사하며, 동시에 프로필 시뮬레이션을 통해 관점의 다양성은 유지할 수 있음을 보여준다.

집단 팩트체킹의 미래: AI와 인간의 새로운 협력 모델

이 연구는 생성형 에이전트가 크라우드소싱 팩트체킹에서 인간을 완전히 대체할 수 있다고 주장하지는 않는다. 오히려 AI 에이전트가 확장성, 일관성, 객관성 측면에서 강점을 가진 보완적 도구로서 기능할 수 있음을 강조한다

특히 현재 X(구 트위터)의 커뮤니티 노트, 메타(Meta)의 인스타그램과 페이스북 등 주요 플랫폼들이 중앙집중식 모더레이션에서 분산형 크라우드 기반 접근법으로 전환하고 있는 시점에서, 이러한 발견은 중요한 의미를 가진다. 생성형 에이전트를 활용한 하이브리드 또는 완전 자동화된 크라우드소싱 프레임워크는 인간 판단의 강점을 유지하면서도 확장성, 신뢰성, 공정성 측면의 한계를 극복할 수 있는 방안이 될 수 있다


FAQ

Q: 집단 팩트체킹이란 무엇이며 왜 중요한가요? A: 집단 팩트체킹은 많은 일반인들이 함께 정보의 진위를 평가하는 방식입니다. 전문가 검증보다 비용 효율적이면서도 다양한 관점을 통합할 수 있어, 폭증하는 온라인 허위정보에 대응하는 확장 가능한 방법으로 주목받고 있습니다.

Q: 생성형 에이전트란 정확히 무엇인가요? A: 생성형 에이전트는 대규모 언어 모델(LLM)을 기반으로 한 자율적 AI 시스템으로, 인간의 행동과 의사결정을 모방할 수 있습니다. 이 연구에서는 다양한 인구통계학적, 이념적 특성을 가진 가상의 ‘사람들’처럼 행동하도록 설계되었습니다.

Q: 이 연구가 소셜 미디어 플랫폼에 어떤 의미가 있나요? A: X(구 트위터), 페이스북, 인스타그램 등 주요 소셜 미디어 플랫폼들이 중앙집중식 모더레이션에서 분산형 접근법으로 전환하고 있는 상황에서, 생성형 에이전트는 더 정확하고 일관된 팩트체킹을 제공할 수 있는 보완적 도구가 될 수 있습니다. 이는 허위정보 확산 방지에 크게 기여할 수 있습니다.

기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.

이미지 출처: 이디오그램 생성

기사는 클로드와 챗GPT를 활용해 작성되었습니다. 




AI 에이전트, 가짜 뉴스 대응의 새 무기 될 수 있나? – AI 매터스