GPT가 만든 가짜 논문들, 구글 스칼라(Google Scholar)에 퍼지며 과학적 증거 기반 위협

GPT-fabricated scientific papers on Google Scholar: Key features, spread, and implications for preempting evidence manipulation

인공지능(AI) 기술의 발전으로 생성형 AI 모델인 GPT(Generative Pre-trained Transformer)를 이용해 만든 가짜 학술 논문들이 구글 스칼라(Google Scholar)에 무분별하게 퍼지고 있다. 이는 과학적 증거 기반을 심각하게 위협할 수 있는 문제로 대두되고 있다. 최근 하버드 케네디 스쿨 허위정보 리뷰(Harvard Kennedy School Misinformation Review)에 발표된 연구에 따르면, GPT로 제작된 의심스러운 논문들이 구글 스칼라 검색 결과에 정상적인 논문들과 함께 나열되어 있으며, 이는 학술 커뮤니케이션의 신뢰성을 해칠 수 있는 것으로 나타났다.

스웨덴 보로스 대학교(University of Borås)의 유타 하이더(Jutta Haider) 교수 연구팀은 GPT로 만들어진 것으로 의심되는 139편의 논문을 분석했다. 이 논문들은 주로 환경, 보건, 컴퓨팅 등 정책과 밀접한 관련이 있는 주제들을 다루고 있었다. 연구팀은 이러한 현상이 사회의 증거 기반을 악의적으로 조작할 가능성을 높이고 있다고 경고했다.

의심스러운 논문들, 다양한 온라인 플랫폼으로 확산

연구진이 발견한 GPT 제작 의심 논문 139편 중 89편이 비색인 학술지에, 19편이 색인 학술지에 게재되었으며, 19편은 대학 데이터베이스에서 발견된 학생 논문이었고, 12편은 프리프린트 데이터베이스 등에 올라온 작업 논문이었다. 이 중 환경과 보건 관련 논문이 전체의 34%(47편)를 차지했으며, 이 논문들의 66%가 비색인 학술지에 실렸다.

더욱 우려되는 점은 이러한 의심스러운 논문들이 여러 온라인 플랫폼으로 빠르게 퍼지고 있다는 것이다. 연구팀이 조사한 결과, 보건 관련 20편의 논문이 20개의 고유 도메인에서 46개의 URL로 발견되었고, 환경 관련 27편의 논문은 26개의 고유 도메인에서 56개의 URL로 확인되었다. 이 논문들은 리서치게이트(ResearchGate), 오르시드(ORCiD), 이지체어(Easychair), 프론티어스(Frontiers), IEEE(전기전자기술자협회), 트위터(X) 등 다양한 플랫폼에 퍼져 있었다.

하이더 교수는 “대부분의 의심스러운 논문들이 여러 복사본으로 존재하며, 이미 여러 아카이브와 리포지토리, 소셜 미디어로 퍼져 있습니다. 이를 과학적 기록에서 완전히 제거하는 것은 매우 어렵거나 불가능할 것입니다”라고 설명했다.

구글 스칼라의 구조적 문제점 드러나

이번 연구는 구글 스칼라의 구조적 문제점도 함께 드러냈다. 구글 스칼라는 품질 관리된 인용 데이터베이스와 그렇지 않은 데이터베이스의 결과를 동일한 인터페이스에서 구분 없이 제공하고 있어, GPT로 만들어진 의심스러운 논문들에 대한 필터링 없는 접근을 허용하고 있다.

하이더 교수는 “구글 스칼라가 공개적으로 접근 가능한 학술 커뮤니케이션 인프라에서 중심적인 위치를 차지하고 있음에도 불구하고, 포함 기준에 대한 표준, 투명성, 책임성이 부족합니다. 이는 과학에 대한 대중의 신뢰에 심각한 영향을 미칠 수 있습니다”라고 지적했다.

이러한 문제는 구글 스칼라를 악용하여 증거를 조작하는 ‘증거 해킹(evidence hacking)’의 가능성을 더욱 높이고 있다. 또한 부정한 논문을 원래의 출판 장소에서 철회하거나 제거하려는 시도에도 어려움을 줄 것으로 예상된다.

과학적 신뢰성 위협과 대응 방안

GPT로 제작된 가짜 논문들의 확산은 과학적 지식에 대한 신뢰 기반을 약화시키고 심각한 사회적 위험을 초래할 수 있다. 특히 정책 결정, 입법, 기타 의사 결정을 위한 증거로서 품질 관리된 연구의 권위가 훼손될 수 있다는 점이 우려된다.

연구팀은 이러한 문제에 대응하기 위해 기술적, 교육적, 규제적 접근이 동시에 이루어져야 한다고 제안했다. 구체적인 방안으로는 공개적으로 접근 가능한 학술 검색 엔진의 인터페이스에 색인 학술지, 회색 문헌, 동료 검토 등의 필터링 옵션을 제공하는 것이 있다. 또한 학술 검색 엔진의 그래픽 사용자 인터페이스와 크롤러에 색인 학술지에 대한 평가 도구를 통합하는 것도 제안되었다.

하이더 교수는 “구글 스칼라에 실질적인 경쟁자가 없다는 점을 고려할 때, 상업적 이유가 아닌 공익을 위해 운영되는 자유롭게 접근 가능한 비전문 학술 검색 엔진을 설립할 필요가 있습니다”라고 강조했다.

교육적 측면에서는 정책 입안자, 과학 커뮤니케이터, 언론인 등을 대상으로 한 교육 이니셔티브가 중요할 것으로 보인다. 이를 통해 악의적인 조작이나 증거 해킹의 가능성과 영향을 줄일 수 있을 것으로 기대된다.

연구팀은 이 문제를 단순히 AI 텍스트 생성기로 인한 기술적 문제로 보는 것이 아니라, 더 넓은 맥락에서 접근해야 한다고 주장했다. 여기에는 제대로 기능하지 않는 학술 출판 시스템, 학계의 ‘출판하거나 망하거나(publish or perish)’ 패러다임, 구글의 독점에 가까운 지위, 정보와 지식 통제를 둘러싼 이념적 갈등 등이 포함된다.

하이더 교수는 “어떤 개입이든 시스템적 영향을 미칠 가능성이 있습니다. 이러한 영향을 사전에 고려하고 평가하며, 이상적으로는 후속 조치를 취하는 것이 중요합니다”라고 말했다.

이번 연구는 비교적 쉽게 식별 가능한 논문들을 대상으로 했지만, 이는 더 큰 문제의 일부에 불과할 수 있다. 최근의 언론 보도와 학술지 폐쇄 사례, GPT 관련 단어 사용 및 글쓰기 스타일의 변화 등을 고려하면, 이는 빙산의 일각일 가능성이 크다.

연구팀은 “의심스럽고 잠재적으로 조작된 GPT 제작 논문들이 연구 인프라에 침투하고 있으며, 이는 광범위한 현상이 될 가능성이 있습니다. 가짜 과학 논문이 증거를 악의적으로 조작하는 데 사용될 위험을 심각하게 받아들여야 합니다”라고 경고했다.

이 문제는 단순히 텍스트의 자동 요약이나 문헌 검토에 포함되는 것을 넘어, 명시적인 과학적 주장이나 동료 평가에서 발견하기 어려운 오류의 은폐 등으로 이어질 수 있다. 더 나아가 이러한 일이 발생할 가능성 자체가 전략적으로 악용될 수 있는 중대한 위험이며, 과학에 대한 신뢰와 인식에 심각한 영향을 미칠 것으로 보인다.

결론적으로, GPT로 제작된 가짜 학술 논문의 확산은 정보 장애에 대처하는 사회의 능력에 광범위한 영향을 미칠 수 있는 복잡한 문제다. 이 문제를 해결하기 위해서는 먼저 이러한 현상이 왜 존재하고 확산되는지 이해하는 것이 중요하다. 연구자들, 학술지 편집자들, 그리고 학술 검색 엔진 운영자들은 이 문제에 대한 인식을 높이고, 효과적인 대응 방안을 마련하기 위해 협력해야 할 것이다.

스웨덴 보로스 대학의 보고서는 링크에서 확인할 수 있다.

본 기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.