• Home
  • AI Report
  • 구글, AI로 손글씨 완벽 디지털화…스마트펜 없이도 필기 스타일 그대로 보존

구글, AI로 손글씨 완벽 디지털화…스마트펜 없이도 필기 스타일 그대로 보존

InkSight: Offline-to-Online Handwriting Conversion by Learning to Read and Write
이미지출처: Google Research

InkSight: Offline-to-Online Handwriting Conversion by Learning to Read and Write

카메라로 찍으면 끝…손글씨 디지털화의 새 지평

구글(Google)이 일반 카메라로 촬영한 손글씨를 디지털 잉크(Digital Ink)로 변환하는 혁신적인 AI 기술을 공개했다. ‘잉크사이트(InkSight)’로 명명된 이 기술은 특별한 장비 없이도 손글씨의 필체와 펜의 움직임까지 그대로 재현할 수 있다. 구글 리서치팀은 이 기술이 전통적인 필기 방식과 디지털 노트테이킹 사이의 간극을 효과적으로 메울 것이라고 전망했다.

기존에도 손글씨를 디지털화하는 광학 문자 인식(OCR) 기술이 있었지만, 단순히 텍스트로만 변환할 수 있었다. 반면 잉크사이트는 필기구가 움직인 궤적까지 포착해 원래 손글씨의 고유한 특징을 보존한다. 이를 통해 사용자들은 자신만의 독특한 필체를 유지하면서도 디지털의 장점을 모두 활용할 수 있게 되었다.

읽기와 쓰기를 동시에 배우는 AI

구글 연구진은 AI 모델이 ‘읽기’와 ‘쓰기’를 동시에 학습하도록 설계했다. 모델은 손글씨를 인식하는 것뿐만 아니라, 사람이 글씨를 쓸 때의 자연스러운 움직임까지 이해하고 재현한다. 이는 기존의 기하학적 접근방식과는 완전히 다른 혁신적인 방법이다.

특히 비전 트랜스포머(ViT)와 다국어 T5(mT5) 인코더-디코더를 결합해 모델의 확장성과 재사용성을 높였다. 이러한 아키텍처 선택은 다양한 필체와 작성 조건에서도 안정적인 성능을 보장한다. 연구팀은 이 모델이 복잡한 배경, 다양한 조명 조건, 그리고 부분적인 가림 현상이 있는 경우에도 효과적으로 작동한다고 밝혔다.

잉크사이트의 주요 기술적 혁신

잉크사이트의 가장 큰 기술적 도전 과제는 두 가지였다. 첫째는 감독된 학습을 위한 데이터의 부족이었다. 이미지와 디지털 잉크가 쌍으로 된 데이터를 수집하는 것은 비용과 시간이 많이 소요되는 작업이다. 둘째는 다양한 크기와 해상도의 이미지를 처리해야 하는 확장성 문제였다.

연구팀은 이러한 문제를 해결하기 위해 멀티태스크 학습 방식을 도입했다. 인식과 디렌더링(derendering) 작업을 결합함으로써, 다양한 스타일의 이미지에 대한 일반화 능력을 확보했다. 또한 전체 페이지의 디렌더링을 세 단계로 나누어 처리함으로써 확장성 문제도 해결했다.

실제 손글씨와 구분하기 어려운 수준의 성능

구글이 실시한 평가에서 대형 모델(Large-i)이 생성한 디지털 필기의 87%가 ‘우수’ 또는 ‘약간의 오류만 있음’ 판정을 받았다. 평가는 디지털 잉크에 익숙한 16명의 전문가들에 의해 수행되었으며, 각 샘플은 3명의 평가자에 의해 검토되었다.

특히 주목할 만한 점은 평가자들이 AI가 생성한 필기를 실제 사람의 필기와 구분하기 어려워했다는 것이다. 이는 잉크사이트가 단순한 디지털화를 넘어 실제 필기의 자연스러움을 성공적으로 포착했다는 것을 보여준다.

디지털 노트 시장의 혁신 예고

이번 기술은 전통적인 필기 방식을 선호하는 사용자들에게 디지털화의 장벽을 크게 낮출 것으로 기대된다. 특별한 스마트펜이나 전용 용지 없이도 기존 노트를 디지털화할 수 있어, 관련 시장에 큰 변화를 가져올 것으로 전망된다.

더불어 이 기술은 교육 분야에서도 큰 잠재력을 보여준다. 학생들은 자신의 필기 노트를 쉽게 디지털화하여 보관하고 공유할 수 있으며, 교사들은 학생들의 필기를 더 효율적으로 검토하고 피드백을 제공할 수 있게 된다.

향후 발전 방향과 전망

구글 연구진은 잉크사이트가 아직 발전의 여지가 있다고 밝혔다. 특히 복잡한 스케치나 도면의 디지털화, 다양한 언어의 필기체 인식 등에서 추가적인 개선이 필요하다고 설명했다.

또한 연구팀은 이 기술이 오픈소스로 공개되어 있어, 개발자들이 자유롭게 활용하고 발전시킬 수 있다고 강조했다. 이는 더 많은 혁신과 응용 사례를 이끌어낼 것으로 기대된다.

기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 

AI Matters_banner_article_bottom



구글, AI로 손글씨 완벽 디지털화…스마트펜 없이도 필기 스타일 그대로 보존 – AI 매터스 l AI Matters