마이크로소프트 파운드리의 실시간 음성 에이전트 스택 Voice Live가 일반 출시(GA)됐다. 그동안 별도로 붙여 써야 했던 음성 인식, 텍스트-투-스피치(TTS), 발화 차례(turn) 감지, 중간 끼어들기(interruption) 처리, 아바타 같은 실시간 대화 기능을 단일 API로 묶었다. 한 곳에 호출하면 콜센터·음성 비서·키오스크 시나리오를 모두 처리할 수 있는 구조다.
프롬프트 에이전트 시나리오에선 Voice Live가 GA로 풀리며 실시간 음성 경험을 가장 빠르게 추가할 수 있는 경로가 됐다. 기존 에이전트 기능 — 도구 호출, 지식 그라운딩, 메모리, 가드레일, 엔터프라이즈 통합 — 이 저지연 음성 상호작용과 그대로 결합된다. 단일 코드 한 줄 추가로 텍스트 기반 에이전트를 음성 에이전트로 전환할 수 있다는 게 MS의 설명이다.
런타임과 오케스트레이션을 직접 제어해야 하는 팀을 위해 호스티드 에이전트 + Voice Live 조합은 공개 프리뷰로 제공된다. MS 에이전트 프레임워크, LangChain, 자체 스택 어느 쪽을 쓰든 Foundry Agent Service에 호스팅하고 Voice Live와 바로 붙일 수 있다. 호스티드 에이전트는 실시간 음성 시나리오를 위해 WebSocket·WebRTC도 함께 지원하기 시작했다. 사용자 인터럽션·발화 차례 같은 라이브 신호가 그대로 에이전트 로직에 흘러 들어가는 구조다.
Voice Live는 음성 합성에서 다국어와 음성 복제까지 지원한다. 같은 빌드에서 함께 공개된 MAI-Voice-2가 15개 이상 추가 언어로 확장되면서, Voice Live 위에서 자연스러운 한국어·일본어·중국어 음성 비서를 만들기가 수월해졌다. MAI-Transcribe-1.5도 같은 API 안에서 호출 가능해, 다국어 실시간 전사가 한 호출에 묶인다.
한국 입장에서는 콜센터 자동화, 키오스크, 차량용 음성 비서 같은 분야에서 도입 검토가 빨라질 만한 발표다. 그동안 외부 SaaS와 자체 모델을 조합해야 했던 워크플로가 단일 API로 정리되면서 통합 비용이 한층 낮아진다.
자세한 내용은 Microsoft Foundry Blog — Build Edition에서 확인할 수 있다.
이미지 출처: Microsoft Foundry Blog
![[MS 빌드 2026] Voice Live GA 공개 — 음성인식·TTS·턴 감지·아바타까지 단일 API로](https://aimatters.co.kr/wp-content/uploads/2026/06/voice-live-goes-ga.jpg)



![[엔비디아 GTC 몰아보기 #2] N1X 윈도우 AI PC 칩 공개…6,144 CUDA 코어·180 TOPS](https://aimatters.co.kr/wp-content/uploads/2026/06/N1X-UNVEILED.jpg)
