• Home
  • News
  • 엔비디아, 음성인식 모델 ‘패러킷’ 오픈소스 공개… “1시간짜리 오디오 1초 만에 텍스트 변환”

엔비디아, 음성인식 모델 ‘패러킷’ 오픈소스 공개… “1시간짜리 오디오 1초 만에 텍스트 변환”

엔비디아, 음성인식 모델 '패러킷' 오픈소스 공개… "1시간짜리 오디오 1초 만에 텍스트 변환"
이미지 출처: 엔비디아

엔비디아(NVIDIA)가 1일(현지 시간) 자사 AI 개발자 X에 발표한 내용에 따르면, 엔비디아의 새로운 음성인식 모델 ‘패러킷(Parakeet)’이 허깅페이스(HuggingFace) 오픈 음성인식 리더보드에서 평균 단어 오류율(WER) 6.05%를 기록하며 1위에 올랐다. 이는 업계 최고 수준의 정확도로, 마이크로소프트(Microsoft)의 파이-4(Phi-4) 모델(6.14%)을 근소한 차이로 앞선 결과다. 허깅페이스 오픈 ASR 리더보드에 따르면, 패러킷 모델은 RTFx(Real-Time Factor) 수치 3386.02를 기록했다. 이는 2위 모델인 마이크로소프트 ‘파이-4-멀티모달-인스트럭트(Phi-4-multimodal-instruct)’의 RTFx 62.12보다 약 50배 빠른 처리 속도다. 높은 RTFx 값은 더 빠른 음성 처리 능력을 의미하며, 실시간 응용 프로그램에서 중요한 지표다.

패러킷 모델은 다양한 데이터셋에서 균형 잡힌 성능을 보여줬다. 특히 리브스피치 클린(LS Clean) 데이터셋에서 1.69%, 리브스피치 아더(LS Other)에서 3.19%, SPGISpeech에서 2.17%, 테드리움(Tedlium)에서 3.38% 등 매우 낮은 오류율을 기록했다. 이는 다른 경쟁 모델들보다 전반적으로 우수한 성능이다.

엔비디아의 패러킷 모델은 오픈 라이선스로 제공되어 연구자와 개발자들이 자유롭게 접근하고 활용할 수 있는 장점이 있다. 이 리더보드에는 프로프라이어터리(독점) 라이선스를 가진 모델들도 있지만, 패러킷은 오픈소스로 제공되어 더 넓은 활용이 가능하다. 엔비디아는 이번 성과로 음성인식 기술 분야에서의 선두 위치를 더욱 공고히 했다. 리더보드에 따르면 엔비디아의 다른 모델들인 ‘캐너리(Canary)’ 시리즈도 상위권에 올라 있어, 엔비디아가 음성인식 모델 개발에 상당한 투자와 성과를 내고 있음을 알 수 있다.


한 X 사용자에 따르면, 패러킷 TDT 0.6B 모델은 60분 분량의 오디오를 단 1초 만에 텍스트로 변환할 수 있는 놀라운 속도를 자랑한다. 이는 실시간 음성 인식이 필요한 다양한 애플리케이션에서 큰 경쟁력을 가질 것으로 예상된다.

허깅페이스 오픈 ASR 리더보드는 영어 음성인식에 초점을 맞추고 있으며, 향후 다국어 평가로 확장될 예정이다. 이번 리더보드 결과는 인공지능 음성인식 기술이 빠르게 발전하고 있으며, 특히 오픈소스 모델들이 독점 모델들과 경쟁하거나 앞서나가는 추세를 보여주고 있다.

해당 모델에 대한 자세한 사항은 링크에서 확인할 수 있다.

이미지 출처: 엔비디아

기사는 클로드와 챗gpt를 활용해 작성되었습니다.




엔비디아, 음성인식 모델 ‘패러킷’ 오픈소스 공개… “1시간짜리 오디오 1초 만에 텍스트 변환” – AI 매터스