Search

메타, 이미지와 비디오 내 객체를 실시간으로 분할할 수 있는 모델 SAM 2 공개 

Image

출처: Sam Witteveen 유튜브(YouTube) 계정 

메타(Meta)가 최근 ‘SAM(Segment Anything Model) 2’를 출시했다. 지난해 메타는 사용자가 간단한 프롬프트로 이미지 내 객체를 분할할 수 있는 AI 기반 모델인 ‘SAM’을 도입했다. 이번에 출시한 ‘SAM 2’는 기존의 이미지 분할 기능을 한층 더 향상했으며, 기존 모델의 한계를 넘어 비디오에서도 실시간으로 객체를 분할할 수 있는 고성능 모델로 발전했다. 

기존의 ‘SAM’은 이미지를 처리하는 ‘이미지 인코더’와 텍스트를 처리하는 ‘프롬프트 인코더’로 구성되어 있다. ‘SAM’의 토대 위에 구축된 ‘SAM 2’는 이미지와 비디오의 모든 객체를 분리할 수 있으며, 특히 비디오 내 객체를 처리하는 데 높은 정확도를 보인다. ‘SAM 2’ 모델은 비디오에서 객체를 놓치지 않고, 추적할 수 있어 빠르게 움직이거나 외형이 변하는 객체, 또는 다른 객체에 의해 가려지는 객체도 효과적으로 처리할 수 있다.  

또한, 비디오에서 객체를 실시간으로 분리하려면 특정 객체의 이전 프레임에 대한 정보를 실시간으로 확보해야 한다. ‘SAM 2’는 이를 위해 ‘메모리 메커니즘’을 도입하였고, 이는 비디오 내에서 객체를 정확하게 분할할 수 있게 했다. 

‘SAM 2’를 학습하는 데 사용된 ‘SA-V’ 데이터 세트는 47개국에서 수집한 약 51,000개의 비디오와 60만 개 이상의 ‘마스크렛(Masklet annotations) 주석’을 포함하고 있다. ‘마스크렛’은 이미지나 비디오의 특정 부분을 표시하는 개념으로, 객체 전체가 아닌 객체의 일부에 집중하여 다른 요소와 구분할 수 있도록 돕는다. 이를 통해 ‘SAM 2’ 모델은 복잡한 비디오 속에서도 객체의 일부분을 정확하게 식별하고 추적할 수 있다.  

또한, ‘마스크렛’을 담고 있는 ‘SA-V’ 데이터 세트는 실제 비디오를 기반으로 하고 있어, ‘SAM 2’가 실제 환경에서 다양한 객체를 정확하게 분할할 수 있도록 지원한다. 객체의 전체와 일부를 모두 포함하는 이 데이터 세트는 ‘SAM 2’의 정확도를 높이는 데 중요한 역할을 한다. 

자세한 내용은 메타 공식 블로그에서 확인 가능하다. 




메타, 이미지와 비디오 내 객체를 실시간으로 분할할 수 있는 모델 SAM 2 공개  – AI 매터스 l AI Matters