메타(Meta)가 인공지능(AI) 모델에서 소외된 언어를 지원하기 위한 ‘언어 기술 파트너 프로그램(Language Technology Partner Program)’을 시작했다. 메타가 7일(현지 시간) 뉴스룸에 발표한 내용에 따르면, 이번 프로그램은 유네스코(UNESCO)의 ‘세계 원주민 언어 10년’ 계획의 일환으로, 소외된 언어들의 기계 번역과 언어 기술을 확장하는 것을 목표로 한다.
10시간 음성 데이터·200문장 이상 확보 목표
메타의 기초 AI 연구팀(FAIR, Fundamental AI Research)은 번역과 같은 인지적으로 까다로운 작업을 수행할 수 있는 고급 기계 지능(AMI, Advanced Machine Intelligence) 개발에 주력하고 있다. 특히 이번 프로그램을 통해 10시간 이상의 음성 녹음과 200문장 이상의 텍스트, 번역된 문장 세트를 제공할 수 있는 파트너들을 모집한다.
7개 언어 지원하는 AI 번역 평가 도구 공개
메타는 동시에 AI 번역 모델의 성능을 평가할 수 있는 오픈소스 기계 번역 벤치마크도 공개했다. 언어학 전문가들이 신중하게 작성한 문장들로 구성된 이 벤치마크는 현재 7개 언어를 지원하며, 지속적으로 확장될 예정이다.
1,100개 언어 지원하는 음성 인식 기술 확보
메타는 2022년 많은 언어를 위한 최초의 신경망 기계 번역 모델인 ‘NLLB(No Language Left Behind)’ 프로젝트를 공개했으며, 최근에는 1,100개 이상의 언어에 대한 음성 전사를 지원하는 ‘메타 대규모 다국어 음성(MMS, Meta Massively Multilingual Speech)’ 프로젝트를 발표했다. 캐나다 누나부트(Nunavut) 정부는 이미 이누크티투트(Inuktitut)어와 이누이나크툰(Inuinnaqtun)어 데이터 공유를 위해 메타와 협력하기로 합의했다. 2024년에는 사전 학습 없이도 새로운 언어의 음성을 전사할 수 있는 제로샷(zero-shot) 음성 인식 기능도 추가됐다. 메타는 이러한 기술들을 모두 오픈소스로 공개하여 전 세계 언어 커뮤니티가 자유롭게 활용할 수 있도록 할 예정이다.
해당 발표에 대한 자세한 사항은 링크에서 확인할 수 있다.
이미지 출처: 메타
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기