Search

‘영상 속 기타 소리만 쏙’… 메타, 원하는 소리만 분리하는 ‘샘 오디오’ 출시

‘영상 속 기타 소리만 쏙’… 메타, 원하는 소리만 분리하는 ‘샘 오디오’ 출시
이미지 출처: 메타

메타(Meta)가 영상에서 원하는 소리만 골라 분리할 수 있는 인공지능(AI) 모델 ‘SAM Audio‘를 16일(현지 시각) 공개했다. 밴드 공연 영상에서 기타를 클릭하면 기타 소리만, 팟캐스트에서 개 짖는 소리가 나는 구간을 표시하면 그 소음만 제거할 수 있다.

메타에 따르면 SAM Audio는 텍스트, 영상 클릭, 시간 구간 표시 등 직관적인 방식으로 복잡한 오디오에서 특정 소리를 추출하는 최초의 통합형 멀티모달 오디오 분리 모델이다. 사용자가 “시끄러운 교통 소음”이라고 입력하면 야외 촬영 영상에서 배경 소음을 제거하고, 영상 속 말하는 사람을 클릭하면 그 사람의 목소리만 분리해 낼 수 있다.


이 모델의 핵심은 ‘PE-AV(Perception Encoder Audiovisual)’라는 엔진이다. 메타가 올해 초 공개한 오픈소스 퍼셉션 인코더를 기반으로 만들어진 PE-AV는 영상의 프레임 수준 특징을 추출해 오디오와 정렬함으로써 화면에 보이는 악기나 화자의 소리를 정확하게 분리한다. 메타는 SAM Audio가 음성, 음악, 일반 소리 분리 등 모든 오디오 카테고리에서 기존 최고 성능 모델과 동등하거나 이를 능가하는 결과를 보였다고 밝혔다. 특히 텍스트와 시간 구간을 함께 활용하는 혼합 방식이 단일 방식보다 더 우수한 성능을 냈다.

메타는 이 기술을 오디오 정리, 배경 소음 제거 등 크리에이티브 미디어 도구에 활용할 계획이다. 미국 최대 보청기 제조업체 스타키(Starkey)와 협력해 접근성 향상 방안도 모색 중이다. 사용자들은 세그먼트 애니띵 플레이그라운드에서 SAM Audio를 직접 체험할 수 있다.

해당 모델에 대한 자세한 사항은 메타 블로그에서 확인 가능하다.

이미지 출처: 메타




‘영상 속 기타 소리만 쏙’… 메타, 원하는 소리만 분리하는 ‘샘 오디오’ 출시 – AI 매터스