구글이 15일(현지 시간) 세계 접근성 인식의 날(Global Accessibility Awareness Day)을 맞아 안드로이드와 크롬 등 주요 제품에 AI 기술을 활용한 다양한 접근성 기능 업데이트를 발표했다. 이번 업데이트는 시각 및 청각 장애인들의 디지털 접근성을 크게 향상시킬 것으로 기대된다. 구글 블로그에 따르면, 이번에 출시된 업데이트는 안드로이드와 크롬 제품군에 걸쳐 다양한 접근성 기능을 포함하며, 음성 인식 도구를 개발하는 개발자들을 위한 새로운 리소스도 제공한다.
구글의 AI 기술과 제미나이(Gemini)를 안드로이드 모바일 경험에 통합하여 시각 및 청각 장애인을 위한 맞춤형 기능을 강화했다. 작년에 구글은 안드로이드의 스크린 리더인 톡백(TalkBack)에 제미나이 기능을 통합하여 대체 텍스트가 없는 이미지에도 AI 생성 설명을 제공했다. 이번에는 이 기능을 확장해 사용자가 이미지에 대해 질문하고 응답을 받을 수 있게 했다. 예를 들어, 친구가 새 기타 사진을 문자로 보냈을 때 사용자는 설명을 듣고 기타의 제조사와 색상, 또는 이미지에 있는 다른 것들에 대해 후속 질문을 할 수 있다. 이제 사용자는 전체 화면에 대한 설명을 듣고 질문할 수도 있다. 쇼핑 앱에서 최신 세일 상품을 볼 때 제미나이에게 제품의 소재나 할인 가능 여부에 대해 물어볼 수 있는 것이다.
감정을 더 잘 이해할 수 있는 표현력 있는 자막도 추가됐다. 표현력 있는 자막(Expressive Captions)은 휴대폰의 대부분 앱에서 소리가 나는 모든 것에 실시간 자막을 제공하며, AI를 사용해 누군가가 말한 내용뿐만 아니라 말하는 방식까지 포착한다. 사람들이 단어의 소리를 길게 늘이는 방식으로 자신을 표현하는 경우가 많다는 점을 고려해 새로운 지속 시간 기능을 개발했다. 이를 통해 스포츠 중계자가 “대단한 슛(amaaazing shot)”이라고 외치는 경우나 “아니(no)”가 아닌 “아니이이(nooooo)”라고 말하는 영상 메시지를 구분할 수 있다.
또한 더 많은 소리 라벨이 제공되어 누군가가 휘파람을 불거나 목을 가다듬는 소리도 인식할 수 있다. 이 새로운 버전은 안드로이드 15 이상을 실행하는 기기에서 미국, 영국, 캐나다, 호주의 영어로 출시됐다.
구글은 2019년에 비표준 발음을 가진 사람들을 위해 음성 인식을 더 접근 가능하게 만드는 방법을 찾는 유포니아 프로젝트(Project Euphonia)를 시작했다. 이제 전 세계 개발자와 조직들이 이 작업을 더 많은 언어와 문화적 맥락으로 확장할 수 있도록 지원하고 있다. 개발자들은 유포니아 프로젝트의 GitHub 페이지를 통해 오픈소스 저장소에 접근할 수 있게 됐다. 이를 통해 연구를 위한 맞춤형 오디오 도구를 개발하거나 다양한 발화 패턴에 맞게 모델을 훈련시킬 수 있다.
올해 초 구글은 구글닷오알지(Google.org)와 협력하여 런던대학교(University College London)의 디지털 언어 포용 센터(Centre for Digital Language Inclusion, CDLI) 설립을 지원했다. CDLI는 10개의 아프리카 언어로 오픈소스 데이터셋을 만들고, 새로운 음성 인식 모델을 구축하며, 이 분야의 조직과 개발자 생태계를 지속적으로 지원함으로써 비영어권 아프리카인을 위한 음성 인식 기술 개선에 노력하고 있다.
접근성 도구는 장애가 있는 학생들에게 특히 유용할 수 있다. 페이스 컨트롤(Face Control)로 얼굴 제스처를 사용해 크롬북을 탐색하거나 읽기 모드(Reading Mode)로 읽기 경험을 맞춤화할 수 있다. 이제 크롬북을 칼리지 보드(College Board)의 블루북(Bluebook) 테스트 앱(SAT 및 대부분의 AP 시험을 치를 수 있는 곳)과 함께 사용할 때 구글의 모든 내장 접근성 기능에 접근할 수 있다. 여기에는 칼리지 보드의 자체 디지털 테스트 도구와 함께 크롬복스(ChromeVox) 스크린 리더와 받아쓰기 기능이 포함된다.
매일 20억 명 이상의 사용자가 크롬을 사용하고 있는 가운데, 구글은 라이브 캡션(Live Caption)과 스크린 리더 사용자를 위한 이미지 설명과 같은 기능으로 브라우저를 모든 사람이 더 쉽게 사용하고 접근할 수 있도록 노력하고 있다. 이전에는 데스크톱 크롬 브라우저에서 스캔된 PDF를 열면 스크린 리더로 상호작용할 수 없었다. 이제 광학 문자 인식(Optical Character Recognition, OCR)을 통해 크롬이 이러한 유형의 PDF를 자동으로 인식하므로 다른 페이지처럼 텍스트를 강조 표시하고, 복사하고, 검색할 수 있으며 스크린 리더를 사용하여 읽을 수 있다.
페이지 줌(Page Zoom)은 이제 데스크톱 크롬에서 작동하는 것과 마찬가지로 안드로이드의 크롬에서 웹페이지 레이아웃이나 브라우징 경험에 영향을 주지 않고 텍스트 크기를 늘릴 수 있게 한다. 확대하고 싶은 정도를 사용자 정의하고 방문하는 모든 페이지 또는 특정 페이지에만 쉽게 적용할 수 있다. 이 기능을 사용하려면 크롬에서 오른쪽 상단의 세 점 메뉴를 탭하고 확대/축소 기본 설정을 설정하면 된다.
해당 기사의 원문은 링크에서 확인할 수 있다.
이미지 출처: 구글
기사는 클로드와 챗gpt를 활용해 작성되었습니다.