• Home
  • News
  • AI 챗봇, 고난도 역사 문제는 여전히 ‘백지’… 정확도 46% 그쳐

AI 챗봇, 고난도 역사 문제는 여전히 ‘백지’… 정확도 46% 그쳐

AI 챗봇, 고난도 역사 문제는 여전히 '백지'... 정확도 46% 그쳐
이미지출처: 이디오그램 생성

테크크런치가 19일(현지 시간)에 보도한 내용에 따르면, 대형언어모델(LLM)이 코딩이나 팟캐스트 제작 같은 특정 작업에서는 뛰어난 성과를 보이지만, 고급 수준의 역사 시험에서는 낙제점을 받았다는 연구 결과가 나왔다.

세계 최고 AI도 역사는 ‘랜덤 추측’ 수준

연구진은 오픈AI(OpenAI)의 GPT-4, 메타(Meta)의 라마(Llama), 구글(Google)의 제미나이(Gemini) 등 최고 수준의 대형언어모델을 대상으로 새로운 역사 벤치마크 테스트를 실시했다. ‘히스트-LLM(Hist-LLM)’이라 명명된 이 벤치마크는 고대 이집트 지혜의 여신의 이름을 딴 세샤트 글로벌 역사 데이터뱅크(Seshat Global History Databank)를 기반으로 답변의 정확도를 평가했다.

오스트리아 복잡성과학허브(CSH)의 연구진이 지난달 신경정보처리시스템학회(NeurIPS)에서 발표한 결과에 따르면, 최고 성능을 보인 GPT-4 터보(GPT-4 Turbo)조차 정확도가 46%에 그쳤다. 이는 무작위 추측과 크게 다르지 않은 수준이다.

“AI는 기본적 사실만 이해, 심층 분석은 실패”

유니버시티 칼리지 런던(University College London)의 마리아 델 리오-차노나(Maria del Rio-Chanona) 컴퓨터과학 부교수는 “대형언어모델이 인상적이긴 하지만, 고급 수준의 역사 이해에 필요한 깊이가 부족하다”며 “기본적인 사실은 잘 다루지만, 박사급 수준의 역사적 탐구가 필요한 질문에는 아직 역부족”이라고 설명했다.

아프리카 등 비서구권 역사는 더 취약

연구진이 공개한 예시를 보면, GPT-4 터보는 고대 이집트의 특정 시기에 비늘 갑옷이 존재했냐는 질문에 ‘그렇다’고 답했지만, 실제로는 1,500년이나 이후에 등장한 기술이었다. 또한 고대 이집트의 상비군 존재 여부를 묻는 질문에도 잘못된 답변을 했다. 연구진은 페르시아 같은 다른 고대 제국의 상비군에 대한 정보가 많이 공개되어 있어 이를 잘못 유추했을 것이라고 분석했다.

특히 오픈AI와 라마 모델은 사하라 이남 아프리카 등 특정 지역의 역사에서 더 낮은 성능을 보였는데, 이는 학습 데이터의 편향성을 시사한다고 연구진은 지적했다.

연구를 주도한 복잡성과학허브의 피터 터친(Peter Turchin) 교수는 “이번 결과는 특정 분야에서 AI가 아직 인간을 대체할 수 없다는 것을 보여준다”고 강조했다. 다만 연구진은 향후 소외된 지역의 데이터를 추가하고 더 복잡한 질문을 포함하는 등 벤치마크를 개선해 AI가 역사 연구에 도움이 될 수 있기를 기대한다고 밝혔다.

해당 기사의 원문은 테크크런치에서 확인할 수 있다.

이미지출처: 이디오그램 생성

기사는 클로드 3.5 Sonnet과 챗GPT를 활용해 작성되었습니다. 




AI 챗봇, 고난도 역사 문제는 여전히 ‘백지’… 정확도 46% 그쳐 – AI 매터스