이탈리아 바리 알도 모로 대학교(University of Bari Aldo Moro) 컴퓨터과학과 연구팀이 개발한 ‘ArtSeek’이라는 인공지능이 화제다. 이 AI는 그림 사진 한 장만 봐도 누가 그렸는지, 언제 그려졌는지, 그림 속에 담긴 의미까지 설명해 준다. 마치 전문가가 옆에서 친절하게 작품을 해설해 주는 것과 같다.
지금까지 나온 미술 분석 AI들은 미리 입력된 정보에 의존해야 했다. 하지만 ArtSeek은 다르다. 그림만 보고도 스스로 판단할 수 있다. 연구진이 조사해보니 실제로 온라인에 있는 미술 작품 11만 6천여 점 중에서 제대로 된 정보가 연결된 건 1만 3천여 점뿐이었다. 나머지는 제목이나 작가 정보 없이 그냥 사진만 떠돌고 있었던 것이다.
560만 개 위키피디아 자료로 똑똑해진 AI의 비밀
ArtSeek이 이렇게 똑똑한 이유는 위키피디아의 방대한 자료를 학습했기 때문이다. 연구진은 전체 영어 위키피디아 5000만 개 조각 중에서 미술과 관련된 내용만 골라내는 특별한 방법을 개발했다. 그 결과 탄생한 ‘위키프래그먼츠(WikiFragments)’는 565만 1060개의 미술 관련 자료로 구성되어 있다. 이 중 523만 개는 텍스트만 있고, 41만 개는 사진과 글이 함께 들어있다.
연구진은 위키피디아의 카테고리를 따라가면서 미술 관련 정보만 골라내는 특별한 방법을 개발했다. 각 자료 조각은 위키피디아 한 문단과 그 위에 있는 모든 사진들로 이루어져 있다. 이렇게 모인 자료들이 AI가 그림을 분석할 때 백과사전 역할을 하는 것이다.

기존 AI보다 8.4% 더 정확해진 놀라운 성능
ArtSeek은 세 가지 주요 기능으로 작동한다. 첫 번째는 필요한 정보를 척척 찾아내는 검색 기능이다. 두 번째는 화가, 화풍, 장르, 재료, 특징을 알아내는 분류 기능이다. 세 번째는 복잡한 질문에도 단계별로 추리해서 답하는 추론 기능이다.
성능 테스트 결과가 놀라웠다. 화풍을 맞히는 능력에서 기존 최고 AI인 ‘GraphCLIP’보다 8.4%나 더 정확했다. 그림 설명을 쓰는 능력도 기존보다 7.1점이나 높았다. 더 놀라운 건 속도다. 2단계 검색 방식을 써서 기존보다 93%나 빨라졌다. 먼저 100개 후보를 빠르게 찾고, 그중에서 가장 관련성 높은 10개만 골라내는 방식이다. 구체적으로 보면 화가 맞히기에서 71.75%, 장르 맞히기에서 78.54%, 화풍 맞히기에서 69.80%의 정확도를 보였다. 이는 현재까지 나온 AI 중 가장 뛰어난 성능이다.
“이 그림 속 남자는 왜 다람쥐를 가리킬까?” 복잡한 질문도 척척 해결
ArtSeek의 가장 인상적인 능력은 복잡한 질문에 답하는 것이다. 예를 들어 “이 초상화 속 남자가 왜 다람쥐를 가리키고 있을까?”라는 질문을 받으면, AI는 단계별로 생각한다. 먼저 관련 자료를 찾고, 여러 정보를 종합해서 설득력 있는 답변을 만들어낸다. 마치 미술사 전문가가 연구하는 과정과 비슷하다.
실제 테스트에서 ArtSeek은 르누아르의 그림을 분석할 때 화가와 화풍을 정확히 알아맞혔다. 그리고 비슷한 다른 작품들을 찾아서 그림의 배경과 의미를 설명했다. 심지어 잘 알려지지 않은 작품도 관련 정보를 찾아내어 해석할 수 있었다. 요하네스 베르메르의 작품을 분석할 때는 그림 속 여성의 정체까지 추측해서 설명했다.
특히 주목할 점은 ChatGPT와의 차이점이다. ChatGPT는 종종 잘못된 작가 이름이나 작품 제목을 지어내는 ‘환각’ 현상을 보인다. 하지만 ArtSeek은 자신이 어떤 자료를 보고 판단했는지 단계별로 보여준다. <think> 라는 특별한 기호를 사용해서 추론 과정을 투명하게 공개하는 것이다.
FAQ
Q: ArtSeek은 어떤 그림들을 분석할 수 있나요?
A: 회화, 조각, 드로잉 등 거의 모든 종류의 미술 작품을 분석할 수 있습니다. 작품에 대한 사전 정보 없이도 사진만 있으면 화가, 화풍, 시대적 배경 등을 알아낼 수 있어서 온라인에 떠도는 대부분의 미술 작품에 활용할 수 있습니다.
Q: 기존 미술 분석 AI와 뭐가 다른가요?
A: 기존 AI들은 미리 입력된 정보에 의존했지만, ArtSeek은 그림만 보고도 분석합니다. 560만 개의 위키피디아 자료를 바탕으로 더 깊이 있는 해석을 제공하고, 복잡한 질문에도 단계별로 추리해서 답변할 수 있습니다.
Q: 일반인도 사용할 수 있나요?
A: 연구진은 데이터셋과 소스코드를 모두 공개할 예정이라고 밝혔습니다. 이를 통해 다른 연구자들이나 개발자들이 자유롭게 활용할 수 있을 것으로 보입니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문 명: ArtSeek: Deep artwork understanding via multimodal in-context reasoning and late interaction retrieval
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.