Search

AI는 군중 속에서 ‘함께 있는 사람’을 알아볼 수 있을까, 65개국 데이터가 내린 냉정한 결론

AI 매터스 기사 썸네일_EgoGroups A Benchmark For Detecting Social Groups of People in the Wild
이미지 출처: 이디오그램 생성

AI가 사람들 사이의 사회적 관계를 인식하는 능력을 검증한 1인칭 시점 벤치마크 데이터셋이 등장했다. 2026년 3월, 스토니브룩 대학교(Stony Brook University)와 라이스 대학교(Rice University) 공동 연구팀이 발표한 ‘이고그룹스(EgoGroups)’는 65개국 128개 도시의 거리 영상에서 사람들이 실제로 어떤 사회적 집단을 이루고 있는지를 AI 모델이 얼마나 정확히 감지할 수 있는지를 측정한다. 로봇, 스마트 안경, 자율주행 보조 장치 등 현실 세계에서 사람과 함께 움직이는 AI 에이전트(AI agent)가 늘어나는 시대에, 이 연구는 그 에이전트들이 ‘사람 관계 읽기’에서 어디까지 왔는지를 가늠하는 첫 번째 글로벌 성적표다.

AI가 ‘같이 있는 것’과 ‘함께인 것’을 구분하지 못했던 이유

사회적 집단(Social Group)이란 단순히 같은 공간에 있는 사람들을 가리키는 말이 아니다. 함께 쇼핑하는 가족, 대화를 나누는 친구들, 물건을 주고받는 상인과 손님처럼 서로 의미 있는 상호작용을 하고 있는 두 명 이상의 사람을 뜻한다. 반면 버스 정류장에서 각자 스마트폰을 보는 낯선 사람들이나 같은 방향으로 걷는 출퇴근 인파는 사회적 집단이 아니다. AI가 이 차이를 인식하는 것은 생각보다 훨씬 어렵다.

기존 연구들이 이 문제를 다루는 방식은 크게 두 가지 한계를 안고 있었다. 첫째, 대부분의 데이터셋이 고정된 감시 카메라나 로봇 카메라로 촬영된 3인칭 시점 영상을 사용했다. 대표적인 선행 데이터셋인 JRDB-Act는 호주 애들레이드 대학교(Adelaide University) 캠퍼스 한 곳에서만 수집됐고, CAFE는 카페 6곳의 정적 카메라 영상만을 담았다. 둘째, 이 데이터셋들은 대부분 단일 도시 또는 단일 국가에서 수집됐기 때문에 문화적 다양성이 거의 없었다. 문화권마다 사람 간의 거리 감각, 신체 접촉 빈도, 집단 행동 방식이 다르다는 사실이 AI 모델 훈련 과정에서 전혀 반영되지 않은 것이다.

이고그룹스는 유튜브(YouTube)에서 수집한 1인칭 워킹투어(walking tour) 영상을 기반으로 한다. 사람이 실제로 걸으면서 촬영한 영상이기 때문에 카메라가 끊임없이 움직이고, 흔들리고, 사람들이 갑자기 화면 안팎으로 등장하거나 사라진다. 전체 16시간 분량의 영상 풀(pool)에서 540개의 5초짜리 클립을 선별해 최종 약 45분 분량의 데이터셋을 구성했다.

65개국 거리에서 수집한 2만 4331개의 사람 위치 정보

이고그룹스의 규모와 구성은 기존 벤치마크와 차원이 다르다. 이 데이터셋은 65개국, 128개 도시의 영상을 담고 있으며 사람이 많은 북적이는 시장부터 한산한 골목길까지 세 가지 군집 밀도(scattered·moderate·crowded)를 균등하게 포함한다. 날씨 조건도 맑음·흐림·비·눈 네 가지로 구분했고, 낮과 밤, 실내와 실외도 모두 포함됐다. 연구팀은 총 24,331개의 사람 바운딩 박스(bounding box, 이미지에서 사람의 위치를 직사각형으로 표시한 것)와 5,151개의 사회적 집단을 수동으로 주석 처리했다. 각 프레임은 최소 3명의 주석 작업자가 독립적으로 검토했으며, 세밀 주석 기준으로 작업자 간 일치도(inter-annotator agreement)는 91.64%에 달했다.

지역 분포는 국제 경영학 연구 프로젝트인 글로브(GLOBE, Global Leadership and Organizational Behavior Effectiveness)의 문화권 분류 체계를 따랐다. 앵글로(Anglo) 문화권이 30%로 가장 많고, 유교 아시아(Confucian Asia)가 22%, 라틴유럽(Latin Europe)이 10% 순이다. 아프리카(African)와 중동(Middle East)은 각각 5% 수준으로 상대적으로 적지만, 이는 기존 데이터셋이 아예 포함하지 않았던 지역이다. 단일 프레임에 최대 26개의 사회적 집단이 주석 처리된 경우도 있어, 현실 세계의 복잡한 군중 장면을 충실히 반영했다.

그림 5. 같은 장면을 보고도 모델마다 묘사 수준이 크게 다르다
그림 5. 같은 장면을 보고도 모델마다 묘사 수준이 크게 다르다


특별한 훈련 없이도 기존 AI를 이긴 최신 멀티모달 모델

이 연구에서 가장 주목할 만한 발견은 태스크 전용 훈련 없이 테스트한 최신 거대언어모델(VLM/LLM)이 기존 지도학습(supervised learning) 기반 모델보다 높은 성능을 보였다는 점이다. 지도학습 기반 모델이란 사람의 위치, 얼굴 방향, 이동 궤적 등을 직접 분석해 집단을 판별하도록 특화된 방식을 말한다.

연구팀은 큰(Qwen2.5)과 젬(Gemini 3-Pro) 등 공개·비공개 최신 VLM과 LLM을 이고그룹스 벤치마크에 적용했다. 이미지를 함께 입력받는 시각언어모델(VLM, Visual Language Model)과 텍스트만 입력받는 거대언어모델(LLM, Large Language Model) 두 버전을 각각 실험했다. VLM에는 영상 프레임과 함께 각 사람의 3D 위치 좌표를 제공했고, LLM에는 좌표 정보만 텍스트로 전달했다. 결과적으로 최고 성능은 Qwen2.5 72B VLM이 기록한 AP(Average Precision, 평균 정밀도) 66.0점, 그리고 Gemini 3-Pro(VLM 기준)가 기록한 F1 32.4점이었다.

JRDB-Act 데이터셋에서 기존 최고 성능이었던 지도학습 기반 모델(DVT3)의 F1 점수 41.19점과 비교하면 여전히 격차가 있지만, 어떠한 태스크 특화 훈련도 없이 이 수준에 도달했다는 점은 의미심장하다. 즉, 범용 AI 모델이 이미 수년간 특화 연구를 해온 좁은 영역 모델과 경쟁할 수 있는 수준에 이르렀음을 보여준다. 특히 이고그룹스처럼 다양하고 복잡한 환경에서는 범용 VLM이 더 잘 일반화될 가능성이 높다.

그림 7. 같은 색으로 묶인 사회적 집단 판정 결과. 한산한 장면에서 혼잡한 장면으로 갈수록 박스 간 겹침이 늘고, 모델이 집단을 잘못 묶거나 놓치는 빈도가 높아진다.
그림 7. 같은 색으로 묶인 사회적 집단 판정 결과. 한산한 장면에서 혼잡한 장면으로 갈수록 박스 간 겹침이 늘고, 모델이 집단을 잘못 묶거나 놓치는 빈도가 높아진다.


아프리카·중동 장면에서 성능이 뚝 떨어진 까닭

모델들이 공통적으로 취약한 지점도 선명하게 드러났다. 군중 밀도가 높아질수록 모든 모델의 성능이 급격히 낮아졌다. 한산한 장면(scattered)에서 Qwen2.5 72B VLM의 AP는 78.89점이었지만, 사람이 많은 혼잡 장면(crowded)에서는 25.89점으로 급감했다. 사람들이 겹치거나 빠르게 이동하면 각자의 위치와 관계를 파악하는 것이 훨씬 어려워지기 때문이다.

문화적 편향(cultural bias)도 뚜렷했다. 문화권별 성능 비교에서 아프리카(African)와 중동(Middle East) 지역은 대부분의 모델에서 최하위 성능을 기록했다. 이는 현재 AI 모델의 학습 데이터가 서구 및 동아시아 문화권에 편중되어 있음을 시사한다. 흥미롭게도 연구팀은 그 이유 중 하나로 손잡기(hand-holding) 행동의 지역별 차이를 분석 결과에서 제시했다. 손잡기 행동은 유럽과 북미에서 훨씬 빈번하게 나타나는 반면, 아프리카 지역에서는 상대적으로 드물다. AI 모델이 사회적 집단을 인식할 때 손잡기처럼 시각적으로 명확한 신체 접촉 단서에 과도하게 의존한다면, 이런 행동이 드문 문화권에서 집단을 제대로 감지하지 못할 수 있다.

파라미터 수(모델의 복잡도를 나타내는 숫자)도 성능에 영향을 미쳤지만 단순히 클수록 좋은 것은 아니었다. Qwen2.5의 경우 72B 모델이 32B 모델보다 대부분의 지표에서 소폭 우수했지만, Cosmos-Reason2 8B처럼 일부 조건에서는 소형 모델도 경쟁력 있는 성능을 보이는 경우도 있었다.

거리의 AI가 사람 관계를 읽을 준비가 됐는가

이고그룹스는 기술적 벤치마크이지만, 그 함의는 연구실 밖에도 닿아 있다. AI 에이전트가 실제 도시 공간에서 사람과 공존하려면 ‘이 사람들이 같이 있는가’를 인식하는 능력은 필수적이다. 배달 로봇이 가족 단위 보행자 사이를 지나가야 할 때, 스마트 안경이 대화 중인 사람들을 구분해야 할 때, 이 능력이 전제된다.

다만 이 논문이 제시한 성능 수치는 출발점으로 봐야 한다. 뛰어난 성능 모델조차 혼잡한 환경에서 특정 그룹이 AP 20점대를 기록했다는 것은, 현실의 북적이는 시장이나 공항에서 AI가 사람 관계를 신뢰할 수 있는 수준으로 읽어내기까지는 아직 상당한 거리가 있다는 뜻이다. 아프리카·중동 지역에서의 성능 저하가 데이터 부족 때문인지, 모델의 표현 방식의 한계 때문인지는 추가 연구가 필요하다. 어느 쪽이든, 이 편향을 교정하지 않으면 특정 지역에서 더 나쁜 경험을 제공하는 AI가 만들어질 가능성이 있다. 이 벤치마크가 그 문제를 수면 위로 끌어올린 것은 분명 의미 있는 일이다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 이고그룹스(EgoGroups)가 기존 데이터셋과 다른 점은 무엇인가요?

A. 이고그룹스는 세계 65개국의 실제 거리 영상을 1인칭 시점으로 본격 활용한 사회적 집단 감지 벤치마크입니다. 기존 데이터셋은 단일 장소의 고정 카메라 영상에 의존했지만, 이고그룹스는 문화권과 군집 밀도를 모두 아우르는 다양한 실세계 환경을 포함합니다.

Q. VLM과 LLM 중 어느 것이 사회적 집단 감지에 더 뛰어난가요?

A. 전반적으로 이미지를 함께 처리하는 시각언어모델(VLM)이 텍스트 좌표 정보만 사용하는 거대언어모델(LLM)보다 한산한 장면에서 우수한 경향을 보였습니다. 그러나 혼잡한 장면에서는 두 방식 모두 성능이 크게 떨어져, 어느 한 방식이 절대적으로 우월하다고 단정하기 어렵습니다.

Q. AI가 아프리카·중동 지역에서 성능이 낮은 이유는 무엇인가요?

A. 연구팀은 AI 모델의 학습 데이터 자체가 서구·동아시아 중심으로 편중되어 있을 가능성을 지적합니다. 손잡기처럼 지역마다 빈도가 다른 사회적 행동을 AI가 잘못 해석하거나 놓치는 경우도 원인 중 하나로 분석됩니다. 특정 문화권의 신체 언어에 대한 훈련 데이터를 보강해야 이 격차를 줄일 수 있을 것으로 보입니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: EgoGroups: A Benchmark For Detecting Social Groups of People in the Wild

이미지 출처: AI 생성 콘텐츠

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

함샤우트 글로벌_우리는 광고비 없이 AI로 팝니다 이벤트 안내 기사 배너