‘영상 속 기타 소리만 쏙’… 메타, 원하는 소리만 분리하는 ‘샘 오디오’ 출시

메타(Meta)가 영상에서 원하는 소리만 골라 분리할 수 있는 인공지능(AI) 모델 ‘SAM Audio‘를 16일(현지 시각) 공개했다. 밴드 공연 영상에서 기타를 클릭하면 기타 소리만, 팟캐스트에서 개 짖는 소리가 나는 구간을 표시하면 그 소음만 제거할 수 있다.

메타에 따르면 SAM Audio는 텍스트, 영상 클릭, 시간 구간 표시 등 직관적인 방식으로 복잡한 오디오에서 특정 소리를 추출하는 최초의 통합형 멀티모달 오디오 분리 모델이다. 사용자가 “시끄러운 교통 소음”이라고 입력하면 야외 촬영 영상에서 배경 소음을 제거하고, 영상 속 말하는 사람을 클릭하면 그 사람의 목소리만 분리해 낼 수 있다.

이 모델의 핵심은 ‘PE-AV(Perception Encoder Audiovisual)’라는 엔진이다. 메타가 올해 초 공개한 오픈소스 퍼셉션 인코더를 기반으로 만들어진 PE-AV는 영상의 프레임 수준 특징을 추출해 오디오와 정렬함으로써 화면에 보이는 악기나 화자의 소리를 정확하게 분리한다. 메타는 SAM Audio가 음성, 음악, 일반 소리 분리 등 모든 오디오 카테고리에서 기존 최고 성능 모델과 동등하거나 이를 능가하는 결과를 보였다고 밝혔다. 특히 텍스트와 시간 구간을 함께 활용하는 혼합 방식이 단일 방식보다 더 우수한 성능을 냈다.

메타는 이 기술을 오디오 정리, 배경 소음 제거 등 크리에이티브 미디어 도구에 활용할 계획이다. 미국 최대 보청기 제조업체 스타키(Starkey)와 협력해 접근성 향상 방안도 모색 중이다. 사용자들은 세그먼트 애니띵 플레이그라운드에서 SAM Audio를 직접 체험할 수 있다.

해당 모델에 대한 자세한 사항은 메타 블로그에서 확인 가능하다.

이미지 출처: 메타

‘영상 속 기타 소리만 쏙’… 메타, 원하는 소리만 분리하는 ‘샘 오디오’ 출시

20대·저학력층이 가장 위험하다… AI 그럴듯한 거짓말에 무방비

AI 수백 개가 밤낮없이 코딩… 일주일간 혼자 웹브라우저 만든 인공지능 팀의 비밀

GPT-5, 2개월 만에 단백질 생산비 40% 낮춰… 약값 인하 기대

[AI 매터스 뉴스레터 #166] AI 에이전트끼리 커뮤니티를 한다고? 몰트북, 쉽게 이해시켜 드립니다

“AI가 AI를 만드는 시대 열렸다”… 오픈AI, 자기 학습 모델 ‘GPT-5.3-Codex’ 공개

Highlight

2026년 2월, 놓치면 아까운 AI 툴 프로모션 총정리와 선택 가이드

AI끼리만 SNS 한다고? “인간은 구경만” 150만 AI 모인 신기한 플랫폼 등장

AI 에이전트끼리 커뮤니티를 한다고? 몰트북, 쉽게 이해시켜 드립니다

AI가 AI 보안 무력화… 챗GPT·클로드 등 41개 모델 ‘숨겨진 지침서’ 100% 유출

오픈AI, “AI가 AI를 관리한다”… 여러 AI 비서 동시에 부리는 코덱스 앱…