'통계의 거짓말' 이제 AI가 잡는다... 잘못된 데이터 이미지 자동으로 탐지·수정

뉴욕 스토니브룩 대학교 연구진이 개발한 미스비스픽스(MisVisFix)는 클로드(Claude)와 GPT 모델을 결합해 잘못된 데이터 시각화를 자동으로 찾아내고 수정안을 제시하는 인터랙티브 대시보드다. 450개의 시각화를 대상으로 한 평가에서 이 시스템은 74개 유형의 시각화 오류를 높은 정확도로 탐지했으며, 전문가들은 업무에 활용할 의향이 높다고 평가했다.

클로드가 GPT보다 데이터 읽기 74% 뛰어나… 두 AI 장점 합쳐 정확도 높였다

해당 논문에 따르면, 연구진은 시스템 개발에 앞서 GPT-4.5-preview, 클로드-3.7-sonnet, 제미나이-2.0-pro 세 가지 최신 대규모 언어모델의 성능을 비교했다. 시각화 이해도 평가 도구인 VLAT를 활용한 테스트에서 클로드-3.7-sonnet이 인간보다 74% 높은 성능으로 1위를 차지했다. GPT-4.5-preview와 제미나이-2.0-pro도 인간을 앞섰지만 클로드에는 미치지 못했다.

연구진은 단순히 질문하는 대신 3단계 접근법을 개발했다. 먼저 그래프에서 데이터를 추출하고, 데이터를 정렬한 뒤, 이를 바탕으로 질문에 답하게 하는 방식이다. 이 방법으로 이전 연구에서 인간보다 못했던 AI 성능을 크게 끌어올렸다.

미스비스픽스는 각 모델의 장점을 활용하는 전략을 썼다. 클로드-3.7-sonnet은 차트에서 정보를 추출하는 역할을 맡았고, 두 모델이 함께 문제점 탐지와 수정을 담당한다. 구조적 문제 탐지에서는 GPT가, 맥락적 문제 탐지에서는 클로드가 더 우수했다. 두 모델을 함께 사용하면 단일 모델보다 신뢰할 수 있는 결과를 얻을 수 있다.

잘린 축부터 왜곡된 색상까지… 74가지 그래프 속임수 한 번에 찾아낸다

미스비스픽스는 기존 연구에서 정리한 74개 범주의 시각화 오류를 체계적으로 탐지한다. 시스템은 문제를 세 가지로 분류한다. 주요 문제는 데이터 인식을 크게 왜곡하는 것들로 잘린 축, 오해의 소지가 있는 색상, 조작된 데이터 등이 포함된다. 경미한 문제는 가독성에 영향을 주지만 해석을 근본적으로 바꾸지는 않는 것들이다. 잠재적 문제는 상황에 따라 문제가 될 수 있는 요소들이다.

시스템의 핵심 기능은 문제 위치를 정확하게 보여주는 것이다. 사용자가 대시보드에서 특정 문제 위에 마우스를 올리면 차트의 해당 영역이 강조된다. “제목 누락”이 발견되면 제목이 있어야 할 위치가 하이라이트되는 식이다. 축이나 텍스트 같은 명확한 요소는 가장 정확하게 표시되고, 색상이나 데이터 포인트 같은 분산된 요소는 상대적으로 정확도가 낮지만 여전히 높은 수준을 유지한다.

연구진은 450개의 시각화로 평가 데이터를 만들었다. 이 중 360개는 오도하는 것이고 90개는 정상이었다. 오도하는 시각화는 74개 문제 범주마다 최소 3개 이상 포함했고, 흔한 문제는 더 많은 샘플을 추가했다. 정상 시각화는 학술지, 정부 보고서, 주요 언론사에서 가져와 전문가 검증을 거쳤다.

평가 결과 미스비스픽스는 기존 방법들을 크게 앞섰다. 대규모 언어모델만 사용한 방법이나 기존 시각화 검사 도구보다 훨씬 높은 정확도를 보였다. 차트 유형별로는 막대 차트와 선 그래프에서 가장 좋은 성능을 냈고, 파이 차트와 산점도가 그 뒤를 이었다. 문제 유형별로는 잘린 축, 3D 효과, 이중 축 같은 구조적 문제를 가장 잘 찾아냈고, 선별적 데이터 제시나 결과 왜곡 같은 맥락적 문제도 높은 탐지율을 기록했다.

문제 찾고 수정안까지 2~3분… 채팅으로 색상·디자인 바로 변경 가능

미스비스픽스는 문제를 찾는 것에 그치지 않고 수정된 시각화를 자동으로 만든다. 시스템은 원본, 추출된 데이터, 발견된 문제를 받아 새로운 시각화를 생성한다. 파이썬 시각화 라이브러리를 사용해 코드를 만드는 방식이다. 분석에는 2~3분이 걸린다.

대시보드는 여러 패널로 나뉜다. 패널 A는 원본 시각화를 보여주고, 패널 B와 C는 클로드와 GPT가 만든 수정 버전을 보여준다. 사용자는 원본과 두 대안을 비교할 수 있다. 패널 D는 데이터 업로드 기능으로, AI가 데이터 추출에 실패하면 사용자가 직접 제공할 수 있다. 패널 E와 F는 각 모델이 발견한 문제들을 심각도별로 정리해 보여준다.

패널 G의 채팅 창이 가장 독특하다. 사용자는 시각화에 대해 질문하거나 수정을 요청할 수 있다. “파란색으로 바꿔줄 수 있나요?”라고 요청하면 시스템이 업데이트된 시각화를 만든다. 모든 버전에 계속 접근할 수 있어 변경 과정을 추적할 수 있다.

시스템은 학습 기능도 있다. 사용자가 시스템이 놓친 문제를 발견하면 간단히 지식 베이스에 추가할 수 있다. 녹색 체크 버튼을 누르면 새 문제가 등록된다. 이를 통해 미스비스픽스는 초기 훈련에 없던 새로운 문제에도 적응한다.

시각화 전문가들 “시간 절약되고 놓친 문제도 찾아줘”… 교육용으로 특히 유용

연구진은 평균 13년 경력의 시각화 전문가 5명을 평가에 참여시켰다. 전문가들은 탐지 정확도, 개선 제안의 유용성, 업무 활용 가능성 모두에서 높은 점수를 줬다. 전문가들은 시스템이 수동 분석으로 찾을 문제들을 정확히 찾아냈다고 평가했다. 한 전문가는 “꼼꼼히 조사하는 시간을 절약해주는 AI 팀원 같다”고 말했다. 다른 전문가는 “초기 검토에서 놓쳤을 문제들을 잡아냈다”고 밝혔다.

교육적 가치가 특히 높다는 평가가 많았다. 한 전문가는 “데이터 시각화 강의에서 매우 유용할 것 같다. 특정 관행이 왜 문제인지 이해하도록 돕는 즉각적이고 구체적인 피드백을 제공한다”고 말했다. 문제를 찾을 뿐 아니라 시청자 인식에 미치는 영향까지 설명하는 기능이 대학부터 전문 교육까지 다양한 환경에서 쓰일 수 있다.

채팅 기능도 긍정적 평가를 받았다. 한 전문가는 “정적인 분석 도구를 훨씬 더 유용한 것으로 바꾼다”고 했고, 다른 전문가는 “추가 질문으로 무엇을 어떻게 고쳐야 하는지 정확히 이해할 수 있었다”고 밝혔다.

다만 한계도 지적됐다. 시스템이 특정 분야에서 허용되는 요소를 문제로 표시하는 경우가 있었다. 한 전문가는 “금융 시각화에서는 의도적으로 0이 아닌 기준선을 쓰는데, 시스템이 이런 관습을 인식해야 한다”고 말했다. 또 다른 전문가는 “문제를 고치는 것과 시각화의 미적 정체성을 유지하는 것 사이에 균형이 필요하다”고 언급했다.

소셜미디어에 ‘진실 확인’ 버튼 도입 가능… 가짜뉴스 차단하며 비판적 사고 키워

연구진은 미스비스픽스를 소셜미디어에 통합하는 방안을 제시했다. ‘진실 확인’ 기능으로 사용자가 원본과 수정 버전을 전환할 수 있게 하는 것이다. 이는 매력적인 디자인을 유지하면서도 오도하는 부분을 드러낸다. 페이스북이나 링크드인에 통합되면 의심스러운 차트에 경고 라벨이 표시된다. 사용자가 탭하면 두 버전을 비교하고 문제 설명을 볼 수 있다. 이 방식은 잘못된 정보를 바로잡으면서 사용자의 비판적 사고 능력도 키운다.

연구진은 향후 분야별 지식을 통합해 전문 시각화에서 성능을 높이고, 계산 속도를 개선하며, 초보 사용자 대상 연구를 진행할 계획이다. 저널리즘, 교육, 과학 리뷰 등 특정 분야에 맞춘 버전 개발도 고려 중이다.

AI가 정보 생성하는 시대에서, AI가 정보의 신뢰성을 지키는 시대로

미스비스픽스의 등장은 데이터 시각화 분야에 중요한 전환점이 될 수 있다. 그동안 오도하는 그래프를 구별하려면 상당한 전문 지식이 필요했지만, 이제 AI가 그 역할을 대신할 수 있게 됐다. 특히 뉴스 소비자나 소셜미디어 이용자처럼 데이터 전문가가 아닌 일반인들도 정보의 진위를 쉽게 판단할 수 있는 도구를 갖게 된 것이다.

언론사와 팩트체크 기관에 미칠 영향도 주목할 만하다. 현재 팩트체커들은 의심스러운 시각화를 일일이 수동으로 검증해야 하지만, 미스비스픽스 같은 도구가 상용화되면 검증 속도가 크게 빨라질 수 있다. 2~3분이면 분석이 끝나고 수정안까지 제시되므로, 팩트체커들은 더 많은 사례를 처리하거나 복잡한 맥락 분석에 집중할 수 있다. 다만 연구진이 지적한 것처럼 도메인별 관습을 제대로 반영하지 못하는 한계가 있어, 당분간은 전문가의 최종 검토가 여전히 필요할 것으로 보인다.

그럼에도 이 연구는 대규모 언어모델이 단순히 텍스트나 이미지를 생성하는 것을 넘어, 정보의 정확성을 검증하고 개선하는 ‘큐레이터’ 역할까지 할 수 있음을 보여줬다. 향후 이런 기술이 더 발전하면 텍스트 기사의 팩트체크, 영상 콘텐츠의 진위 검증 등으로 확장될 가능성도 열려 있다. AI가 정보를 만들어내는 시대에서, AI가 정보의 신뢰성을 지키는 시대로 한 걸음 나아갈 수 있는 것이다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 미스비스픽스는 어떤 그래프 문제를 찾아내나요?

A. 미스비스픽스는 74가지 유형의 시각화 오류를 찾아냅니다. 잘린 축, 3D 효과, 이중 축 같은 구조적 문제부터 선별적 데이터 제시, 데이터 조작 같은 맥락적 문제까지 포함됩니다. 시스템은 문제를 주요, 경미, 잠재적으로 구분해 사용자가 중요한 것부터 고칠 수 있게 돕습니다.

Q2. 일반인도 쉽게 사용할 수 있나요?

A. 네, 전문 지식 없이도 사용할 수 있습니다. 차트 이미지를 올리면 2~3분 안에 시스템이 자동으로 문제를 찾고 수정안을 만듭니다. 각 문제에 대한 자세한 설명과 개선 제안을 제공하며, 채팅으로 추가 질문이나 수정 요청도 할 수 있습니다.

Q3. 만들어진 수정안을 다운로드할 수 있나요?

A. 네, 시스템이 만든 수정 버전을 다운로드할 수 있습니다. 클로드와 GPT가 각각 만든 두 버전을 제공하며, 채팅으로 색상 변경 등 추가 수정도 요청할 수 있습니다. 모든 버전에 계속 접근할 수 있어 변경 과정을 확인할 수 있습니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: MisVisFix: An Interactive Dashboard for Detecting, Explaining, and Correcting Misleading Visualizations using Large Language Models

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

‘통계의 거짓말’ 이제 AI가 잡는다… 잘못된 데이터 이미지 자동으로 탐지·수정

[AI 매터스 뉴스레터 #170] 충전기 만들던 앤커가 AI 녹음기를 내놨다…”배터리 회사는 옛말”

집에서 쓰는 챗GPT가 직장보다 2배 더 효율적인 충격적 이유

“자비스가 내 손 안에”…오픈클로 파생 상품 5종 총정리, 당신에게 맞는 가재는 누구일까?

“IPO 때문”이라는 젠슨 황의 해명…엔비디아의 투자 철수, 진짜 이유는 따로 있다

직원들이 누드·성관계 영상까지 봤다…메타 AI 스마트 글라스, 미국서 집단 소송 직면

Highlight

“추론도 코딩도 엑셀도 컴퓨터 대신 조작도 한다”…오픈AI, GPT-5.4 전격 공개

직원들이 누드·성관계 영상까지 봤다…메타 AI 스마트 글라스, 미국서 집단 소송 직면

아이폰 칩셋으로 만든 맥북이라고? 99만원짜리 맥북 네오의 거의 모든 것

“검색 AI의 반란”…퍼플렉시티, AI 모델들을 한데 묶은 ‘디지털 노동자’ 공개

챗GPT 지우고 클로드로 갈아탄다…데이터 이전부터 계정 삭제까지 한 번에