Search

휠체어 사용자를 위한 내비게이션 나올까… 챗GPT 활용한 횡단보도 탐지 연구

OmniAcc: Personalized Accessibility Assistant Using Generative AI
이미지 출처: OmniAcc: Personalized Accessibility Assistant Using Generative AI

휠체어 사용자가 도시에서 길을 찾을 때 겪는 어려움을 해소하기 위해 미국 마이애미 대학교 연구팀이 인공지능(AI) 기반 접근성 지도 연구를 발표했다. 해당 연구는 오픈AI의 GPT-4 비전 모델(GPT-4V)을 활용해 위성 이미지와 오픈스트리트맵(OpenStreetMap) 데이터로 횡단보도 등 접근성 관련 요소를 자동 탐지하는 프로토타입 시스템(‘옴니액’, OmniAcc)의 실험 결과를 다룬다.

제로샷 학습 기반 탐지, 97.5%의 높은 정확도

옴니액은 GPT-4V의 제로샷 이미지 분류 능력을 활용해 위성 이미지와 지도 데이터를 기반으로 횡단보도 탐지가 가능함을 입증한 연구 프로토타입이다. 제로샷 학습이란 미리 학습하지 않은 새로운 작업도 수행할 수 있는 AI 기법을 말한다. 기존의 딥러닝 모델들이 대량의 라벨링된 학습 데이터를 필요로 하는 것과 달리, 이번 연구는 사전 학습 없이도 위성 이미지에서 횡단보도를 인식할 수 있음을 실험적으로 확인했다.

연구팀은 미국 지질조사소(USGS) EarthExplorer NAIP 데이터셋에서 가져온 고해상도 GeoTIFF 이미지와 오픈스트리트맵(OpenStreetMap) 데이터를 결합했다. 오하이오주 옥스퍼드 지역에서 실시한 실험에서 횡단보도 탐지 정확도 97.5%를 기록했다. 이는 기존 연구에서 보고된 워싱턴 D.C. 71%, 로스앤젤레스 89%보다 현저히 높은 수치다.

OmniAcc Personalized Accessibility Assistant Using Generative AI


네 가지 데이터 처리 방식 비교, 블러 처리가 최고 성능

연구진은 AI가 횡단보도를 더 정확히 찾을 수 있도록 다양한 이미지 처리 기법을 실험했다. 원본 위성 이미지를 256×256픽셀 크기로 나누어 분석했으며, 네 가지 방식으로 데이터를 구성해 성능을 비교했다.

첫 번째는 원본 위성 이미지를 그대로 사용하는 방식으로 F1 점수 80.97%를 기록했다. 두 번째는 위성 이미지와 도로 네트워크 정보를 분리해서 처리하는 방식으로 49.29%로 가장 낮은 성능을 보였다. 세 번째는 도로 정보를 위성 이미지 위에 겹쳐서 보여주는 방식으로 89.3%를 기록했다.

가장 높은 성능을 보인 것은 네 번째 ‘블러 처리 방식’이었다. 이는 횡단보도와 관련 없는 배경 부분에 가우시안 블러를 적용해 AI가 중요한 부분에만 집중할 수 있도록 한 방법이다. 이 방식은 정밀도 96.11%, F1 점수 97.53%를 기록했다.

실제 휠체어 사용자 53명 인터뷰에서 출발한 연구

이 연구는 실제 휠체어 사용자들의 필요에서 시작됐다. 연구팀이 I-CORP 프로그램을 통해 휠체어 사용자, 가족 구성원, 접근성 옹호자, 관련 전문가 등 53명을 대상으로 실시한 인터뷰에서 기존 내비게이션 시스템의 한계가 드러났다.

한 대학생은 이렇게 말했다. “저는 경제학을 전공하고 있습니다. 원래는 물리학 전공이었어요. 물리학자나 엔지니어가 되고 싶었지만, 물리학 수업과 실험실이 있는 건물이 완전히 접근 불가능했고, 아무리 창의적으로 생각해도 해결할 수 없어서 불행히도 전공을 바꿀 수밖에 없었습니다.”

연구진은 옴니액이 장차 개인 맞춤형 경로 안내나 접근성 관련 질의응답 기능으로 확장될 수 있음을 제안했다. 다만 이번 연구에서는 횡단보도 탐지 정확도에 초점을 맞추었으며, 내비게이션 기능 전반은 앞으로의 발전 방향이다. 예를 들어 사용자가 “벤튼 홀에 접근 가능한 입구가 어디에 있나요?”라고 질문했을 때 지도와 함께 상세한 접근성 정보를 실시간으로 제공하는 시스템으로 발전시킬 계획이다.

향후 다양한 접근성 시설로 확장 계획

연구팀은 향후 옴니액의 기능을 더 많은 사용자가 사용할 수 있도록 확장하고, 더 큰 규모에서 접근 가능한 기능을 탐지하고 매핑하는 능력을 향상시킬 계획이다. 앞으로 더 넓은 다양한 지리적 지역과 환경 조건을 포함하도록 데이터셋을 확장하여 모델의 일반화 능력을 높이고, 실시간 사용자 피드백을 통합해 프롬프트를 더욱 개선하고 분류 정확도를 높일 예정이다. 또한 GPT-4V의 도메인별 미세 조정이나 가벼운 모델 대안을 탐색해 시스템 성능을 최적화할 계획이다. 장기적으로는 횡단보도 외에도 다양한 접근성 관련 시설로 확장할 계획이라고 밝혔다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q: 옴니액이 기존 내비게이션 앱과 다른 점은 무엇인가요?

A: 옴니액은 휠체어 사용자 전용으로 설계된 시스템으로, 경사로와 횡단보도 같은 접근성 시설을 실시간으로 인식하고 개인 맞춤형 경로를 제공합니다. 또한 사용자와 대화형으로 소통하며 즉석에서 접근성 관련 질문에 답변할 수 있습니다.

Q: 제로샷 학습이 왜 중요한가요?

A: 제로샷 학습은 미리 준비된 학습 데이터 없이도 새로운 작업을 수행할 수 있는 기술입니다. 이를 통해 데이터 구축에 드는 시간과 비용을 크게 줄이면서도 높은 정확도를 달성할 수 있어, 다양한 도시 환경에 빠르게 적용할 수 있습니다.

Q: 향후 어떤 기능들이 추가될 예정인가요?

A: 연구팀은 더 넓은 지리적 지역과 다양한 환경 조건을 포괄하는 데이터셋으로 시스템을 확장하고, 실시간 사용자 피드백을 반영해 정확도를 지속적으로 향상시킬 계획입니다. 또한 시스템 성능 최적화를 위한 다양한 기술적 개선도 추진할 예정입니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문 명: OmniAcc: Personalized Accessibility Assistant Using Generative AI

이미지 출처: OmniAcc: Personalized Accessibility Assistant Using Generative AI

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

딜라이트_AI매터스_PR & MKT 전문가를 위한 AI 활용 강의 상세 페이지 디자인_입문편_뉴스레터 배너



휠체어 사용자를 위한 내비게이션 나올까… 챗GPT 활용한 횡단보도 탐지 연구 – AI 매터스 l AI Matters