Search

“여기 어디야?” 사진 한 장에 위치 맞추는 AI 등장… 간판, 건물 모양, 표지판 분석해 장소 찾는다

GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization
이미지 출처: 이디오그램 생성

인공지능(AI)이 사진 한 장만 보고 그 사진이 어디서 찍혔는지 정확하게 알아내는 기술이 등장했다. 중국 푸단대학교(Fudan University), 텐센트 훈위안(Tencent Hunyuan), 칭화대학교(Tsinghua University) 공동 연구진이 만든 ‘지오비스타(GeoVista)’가 그 주인공이다. 이 AI는 사진 속 간판, 건물 모양, 도로 표지판 같은 단서를 찾아내고 인터넷 검색까지 스스로 해서 촬영 장소를 알아낸다.

연구진은 전 세계 66개국 108개 도시의 사진을 모은 테스트용 데이터 ‘지오벤치(GeoBench)’도 함께 공개했다. 놀라운 점은 이 AI가 무료로 공개된 소규모 모델임에도 구글의 제미나이(Gemini)나 오픈AI의 GPT-5 같은 대형 유료 모델과 비슷한 성능을 보인다는 것이다.

사진을 확대하고 인터넷 검색까지 스스로 하는 AI

지오비스타의 가장 큰 특징은 마치 사람처럼 ‘생각하고, 행동하고, 결과를 확인하는’ 과정을 반복한다는 점이다. 사용자가 사진을 보여주면 AI는 먼저 어떤 부분을 자세히 봐야 할지 스스로 판단한다. 그다음 두 가지 도구를 활용하는데, 첫 번째는 ‘확대’ 기능이다. 사진의 특정 부분을 크게 확대해서 간판에 적힌 글자나 건물의 세부 특징을 파악한다. 두 번째는 ‘인터넷 검색’ 기능이다.

예를 들어 도로 표지판에서 ‘TUNEL EL PARAISO’라는 스페인어를 발견하면, AI가 직접 이 단어를 인터넷에서 검색해 베네수엘라 카라카스에 있는 터널이라는 것을 확인한다. 기존 AI들은 이미 학습한 지식에만 의존했지만, 지오비스타는 실시간으로 외부 정보를 찾아볼 수 있어 훨씬 정확한 판단이 가능하다.

GeoVista Web-Augmented Agentic Visual Reasoning for Geolocalization


에펠탑 같은 유명 관광지는 일부러 뺀 테스트 데이터

연구진은 AI의 실력을 제대로 측정하기 위해 ‘지오벤치(GeoBench)’라는 새로운 테스트용 사진 모음을 만들었다. 기존에 있던 테스트 데이터들은 화질이 낮거나 세계적으로 유명한 랜드마크가 포함되어 있어 AI의 진짜 추론 능력을 확인하기 어려웠다.

지오벤치는 이런 문제를 해결하기 위해 일반 사진 512장, 360도 파노라마 사진 512장, 위성 사진 108장 등 총 1,142장의 고화질 사진을 모았다. 또한 음식 사진이나 실내 사진처럼 장소를 특정하기 불가능한 이미지와 너무 유명한 랜드마크 사진은 일부러 제외했다. 각 사진에는 정확한 위도와 경도 좌표가 붙어 있어서 AI가 예측한 위치와 실제 위치가 몇 킬로미터나 떨어져 있는지 정밀하게 측정할 수 있다.

정답에 가까울수록 더 높은 점수를 주는 학습 방식

지오비스타를 똑똑하게 만든 비결은 두 단계 학습 방식에 있다. 첫 번째 단계에서는 사람이 위치를 추리하는 방식을 AI에게 보여준다. 어떤 부분을 확대해서 봐야 하는지, 어떤 단어를 검색해야 하는지를 예시로 약 2,000개 만들어 AI가 따라 하도록 가르친다. 두 번째 단계에서는 ‘계층적 보상’이라는 특별한 채점 방식을 사용한다.

예를 들어 정답이 ‘로스앤젤레스’인 사진에서 AI가 ‘미국’이라고만 답하면 낮은 점수를, ‘캘리포니아’라고 답하면 중간 점수를, ‘로스앤젤레스’라고 정확히 답하면 높은 점수를 준다. 이렇게 하면 AI가 “일단 대충 나라만 맞추자”가 아니라 “최대한 정확한 도시까지 알아내자”라는 방향으로 학습하게 된다. 이 방식을 적용하자 도시 단위 정확도와 정밀 측정 지표가 모두 향상되었고, 도구 호출 횟수도 늘어났다.

무료 공개 모델인데 유료 대형 AI와 성능이 비슷하다

테스트 결과 지오비스타는 같은 규모의 다른 무료 공개 AI들을 크게 앞섰다. 도시 단위 정확도에서 지오비스타는 72.68%를 기록한 반면, 비슷한 크기의 다른 모델들은 11~30% 수준에 그쳤다. 더 놀라운 것은 구글의 제미나이-2.5-플래시(73.29%)나 오픈AI의 GPT-5(67.11%) 같은 대형 유료 모델과도 대등하거나 더 나은 성능을 보였다는 점이다.

AI가 예측한 위치와 실제 위치가 3킬로미터 이내로 가까운 비율도 52.83%에 달했고, 오차의 중간값은 고작 2.35킬로미터였다. 같은 조건의 다른 무료 모델들은 오차가 수천 킬로미터에 달했다. 연구진은 이런 성과가 AI가 인터넷 검색을 효과적으로 활용하고, 앞서 설명한 단계별 점수 체계로 학습한 덕분이라고 설명했다.

학습 데이터가 많아질수록 성능이 꾸준히 향상

연구진은 학습에 사용하는 데이터 양을 1,500개부터 12,000개까지 늘려가며 실험했다. 결과는 명확했다. 데이터가 많아질수록 국가, 지역, 도시 모든 단위에서 정확도가 꾸준히 올라갔다. 흥미로운 점은 학습 과정에서 AI의 실수가 자연스럽게 줄어들었다는 것이다. 처음에는 확대할 영역을 잘못 지정하거나 검색어 형식을 틀리는 오류가 많았지만, 학습이 진행되면서 이런 실수가 크게 감소했다. 연구진은 “실수를 하면 정답을 맞 확률이 낮아지므로 AI가 자연스럽게 실수를 피하는 방법을 터득한 것”이라고 분석했다.

편리함 뒤에 숨은 사생활 침해 우려

지오비스타는 AI 기술의 놀라운 발전을 보여주지만, 동시에 걱정되는 부분도 있다. 소셜 미디어에 올린 사진 한 장으로 누군가의 위치가 정밀하게 추적될 수 있다면, 스토킹이나 개인정보 유출 같은 범죄에 악용될 가능성이 있다.

논문에서는 이런 위험에 대한 대책이 언급되지 않아 향후 기술 공개 시 안전장치 마련이 필요해 보인다. 반면 실종자 수색, 범죄 수사, 가짜 뉴스 검증 등 사회에 도움이 되는 용도도 분명히 존재한다. 또한 대기업의 비싼 AI 서비스 없이도 비슷한 성능을 낼 수 있음을 증명했다는 점에서, AI 기술의 대중화에도 의미 있는 발걸음이 될 전망이다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q.지오비스타는 어떻게 사진만 보고 위치를 알아내나요?

A. AI가 사진 속 간판, 건물 모양, 도로 표지판 같은 단서를 찾아 확대해서 살펴본다. 그다음 발견한 글자나 특징을 인터넷에서 검색해 실제 어느 장소인지 확인하는 방식으로 위치를 추론한다.

Q.지오비스타는 얼마나 정확한가요?

A. 테스트 결과 나라를 맞출 확률은 약 93%, 도시를 맞출 확률은 약 73%였다. 예측 위치와 실제 위치가 3킬로미터 이내인 경우도 절반이 넘었고, 평균적인 오차는 2.35킬로미터에 불과했다.

Q.이 기술이 사생활 침해에 악용될 수 있지 않나요?

A. 사진만으로 위치를 알아낼 수 있어 스토킹이나 개인정보 유출에 악용될 가능성이 있다. 현재 논문에서는 이에 대한 안전장치가 제시되지 않아, 기술 공개 시 악용 방지 대책이 함께 마련되어야 한다는 의견이 나올 것으로 예상된다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




“여기 어디야?” 사진 한 장에 위치 맞추는 AI 등장… 간판, 건물 모양, 표지판 분석해 장소 찾는다 – AI 매터스