AI를 똑똑하게 만들려면 더 많은 데이터로 훈련시켜야 한다는 것이 그동안의 상식이었다. 그런데 학습 없는 AI 분할 기술이 이 상식을 정면으로 뒤집었다. 중국 그레이트베이대학교(Great Bay University) 공동 연구진이 2026년 5월 13일 공개한 “Seg-Agent”는 단 한 번의 추가 학습 없이, 수십만 장의 데이터로 훈련된 최고 수준의 AI와 같은 성능을 냈다. 비결은 AI에게 자기가 그린 답을 눈으로 직접 보고 고치게 한 것 단 하나였다.
학습 없는 AI 분할이 130억 파라미터 모델을 이긴 결과
학습 한 번 거치지 않은 AI가 대규모 학습을 마친 AI를 종합 점수에서 앞질렀다. 그레이트베이대학교와 베이항대학교(Beihang University) 공동 연구진이 공개한 결과에 따르면, Seg-Agent-7B는 새 평가 벤치마크 “베리어스랭세그(Various-LangSeg)”에서 종합 70.6점을 기록했다. 이는 130억 개 파라미터로 대규모 학습을 거친 기존 1세대 모델 LISA-13B의 65.8점을 4.8점 앞선 수치다. 특히 “탄수화물이 풍부한 음식”처럼 추론이 필요한 작업에서는 75.2점을 기록해, 학습 기반 최고 모델 셀제로(Seg-Zero)의 74.5점도 살짝 앞섰다. 점수 차이가 작아 보일 수 있지만, 이는 사진 한 장에서 정답 영역을 픽셀 단위로 얼마나 정확히 골라냈는지를 평균 낸 수치다. 매일 수만 장의 사진을 처리하는 서비스 환경이라면 이 차이는 수십만 건의 정확한 인식과 오인식을 가르는 격차로 이어진다.

그림1. 세 가지 시나리오에서 Seg-Agent와 기존 모델의 분할 결과 비교
글자로만 생각하는 AI가 빠진 함정
기존 AI는 그림을 보지 못한 채 글자로만 생각하면서 좌표를 추측한다는 결정적 한계가 있었다. 언어 안내 분할(Language-Guided Segmentation)이란 사용자가 “빨간 옷을 입은 사람”처럼 자연어로 지시하면 AI가 사진에서 해당 부분을 정확히 골라 색칠해주는 기술이다. 그동안 이 분야의 AI는 크게 두 가지 방식으로 작동했다. 하나는 멀티모달 거대언어모델(MLLM)이 좌표를 곧바로 뱉어내는 방식, 다른 하나는 글로만 길게 생각한 뒤 좌표를 내놓는 방식이었다. 두 방식 모두 AI가 자기 답을 시각적으로 확인하지 못한 채 글자만 보고 위치를 짐작한다는 공통의 약점이 있었다. 사진의 아침 식탁 한가운데서 “탄수화물 음식”을 골라내야 한다면, 빵을 가리켜야 정답이다. 그런데 기존 AI는 빵이라는 단어를 떠올린 뒤에도 정작 사진 속 어디에 빵이 있는지 좌표를 잘못 찍는 일이 많았다. 사람이 눈을 감고 그림 위에 선을 긋는 것과 비슷한 상황이었다.
세트오브마크 표시를 활용한 3단계 시각 추론
세그에이전트(Seg-Agent)는 AI가 자기 답을 그림 위에 그려두고 다시 보면서 고치는 3단계 시스템으로 작동한다. 세트오브마크(Set-of-Mark)란 후보가 되는 박스를 사진 위에 직접 그려서 AI가 시각적으로 비교하고 판단할 수 있게 만드는 시각 프롬프트 기법이다. 첫 단계 “생성”에서는 사진을 좌우 반전이나 확대 등 다양한 방식으로 변형해가며 여러 개의 후보 박스를 만든다. 두 번째 “선택”에서는 후보 박스를 모두 그림 위에 표시한 뒤, AI에게 “이 중 어떤 박스가 정답에 가장 가까운가”를 시각적으로 비교하게 한다. 마지막 “보정”에서는 선택된 박스의 경계가 정답 사물과 정확히 맞물리도록 미세하게 조정한다. 이 과정은 사람이 답을 찾을 때 가설을 세우고, 직접 눈으로 확인하고, 틀린 부분을 수정하는 사고 패턴과 닮았다. 연구진은 이 방식을 “명시적 멀티모달 추론 사슬(Explicit Multimodal Chain-of-Reasoning)”이라고 부른다.
중국어와 영어, 만화와 AI 생성 이미지까지 통하는 범용성
세그에이전트는 영어와 중국어를 가리지 않고, 만화나 AI 생성 이미지에서도 작동한다. 연구진이 공개한 시각 결과를 보면 “여인의 모자(女人的帽子)”, “냉장고(fridge)”, “사과 꼭지(apple stem)”, “튕기는 물건(bouncy object)” 같은 다양한 언어 표현이 모두 처리됐다. 이미지 종류 역시 실제 촬영 사진뿐 아니라 만화, AI가 만든 이미지, 웹뉴스 스크린샷까지 폭넓게 적용됐다. 별도 학습 없이 작동하기 때문에 가능한 일이다. 학습 기반 모델은 새로운 종류의 이미지가 등장할 때마다 또 학습을 시켜야 하지만, 세그에이전트는 어떤 이미지든 그대로 받아 처리한다. 연구진은 “더 강력한 새 AI 모델이 등장하면 세그에이전트는 즉시 그 모델을 끼워 쓸 수 있다”고 설명했다. 실제 실험에서는 엔비디아 RTX 4090 GPU 한 장만으로 전체 추론 과정이 끝났다.
학습 시대에서 추론 시대로 옮겨가는 AI 개발 흐름
세그에이전트가 시사하는 바는 AI 성능 향상의 무게중심이 학습에서 추론으로 이동할 가능성이다. 그동안 AI 성능을 끌어올리는 방식은 더 많은 데이터로 더 오래 학습시키는 것이 정석이었다. 그러나 이 방식은 데이터 수집과 컴퓨팅 비용이 막대하고, 새 기반 모델이 나올 때마다 학습을 처음부터 다시 해야 하는 부담이 있다. 세그에이전트는 이미 만들어진 AI에게 “어떻게 생각할지”를 단계별로 안내함으로써, 학습 없이도 비슷한 성능에 도달할 수 있음을 보여줬다. 다만 추론 과정에서 AI를 3~5회 정도 더 호출해야 하므로 답을 내는 데 시간이 더 걸린다는 점은 한계로 남는다. 이 접근이 사진 분할을 넘어 다른 시각 AI 작업까지 확장될지는 두고 볼 필요가 있다. 또한 세그에이전트의 성능이 결국 기반 AI의 능력에 좌우되는 만큼, 더 똑똑한 멀티모달 AI가 등장할수록 이 방식의 가치가 더 커질 가능성도 있다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. 언어 안내 분할(Language-Guided Segmentation)이란 무엇인가요?
A. 사용자가 “빨간 옷을 입은 사람”처럼 자연어로 지시하면 AI가 사진에서 해당 부분만 정확하게 골라내는 기술입니다. 사진 편집 앱에서 배경을 지우거나, 자율주행차가 도로 위 특정 사물을 식별하거나, 의료 영상에서 종양 의심 부위를 표시하는 등 다양한 분야에 쓰입니다.
Q2. 세그에이전트(Seg-Agent)가 학습 없이 작동한다는 게 무슨 뜻인가요?
A. 별도의 데이터로 모델을 다시 훈련시키지 않는다는 의미입니다. 이미 공개돼 있는 멀티모달 AI인 큐웬2.5브이엘(Qwen2.5-VL)과 세그멘트애니띵2(SAM2) 같은 기존 모델을 그대로 가져와, “어떻게 생각할지”를 단계별로 안내하는 방식으로 정확도를 끌어올립니다. 추가 학습 비용이 들지 않는 것이 가장 큰 장점입니다.
Q3. 이 기술이 실생활에서 어떻게 쓰일 수 있나요?
A. 사진 속 특정 사물을 자연어로 골라내는 모든 서비스에 적용될 수 있습니다. 예를 들어 사진 편집 앱에서 “강아지만 남기고 배경 지우기”, 쇼핑 앱에서 “사진 속 가방과 똑같은 상품 찾기”, 보안 시스템에서 “수상한 물건을 든 사람 찾기” 같은 작업이 더 정확해질 수 있습니다.
기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: Seg-Agent: Test-Time Multimodal Reasoning for Training-Free Language-Guided Segmentation
이미지 출처: AI 생성 콘텐츠
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.


![[클로드 처음 사용해보기] 클로드, 이렇게 시작하세요 — 입문부터 코워크까지 14편 총정리](https://aimatters.co.kr/wp-content/uploads/2026/06/claude_01.jpg)


