구글(Google)이 돌고래 의사소통 연구를 위한 획기적인 AI 모델을 공개했다. 이 기술은 인간과 해양 생물 간 소통의 새 장을 열 전망이다. 구글은 14일(현지 시간) 국제 돌고래의 날을 맞아 자사 블로그를 통해 돌핀제마(DolphinGemma)를 발표했다.
돌핀제마는 돌고래의 발성 구조를 학습하고 돌고래와 유사한 소리 시퀀스를 생성할 수 있는 기초 AI 모델이다. 이 프로젝트는 구글이 조지아 공대(Georgia Tech)와 야생 돌고래 프로젝트(Wild Dolphin Project, WDP)와 협업하여 개발했다. WDP는 1985년부터 바하마에서 대서양 반점 돌고래(Stenella frontalis) 개체군을 연구해온 세계에서 가장 오래된 수중 돌고래 연구 프로젝트다. “그들의 세계에서, 그들의 방식으로”라는 비침습적 접근법을 통해 수십 년간의 수중 영상과 오디오를 개별 돌고래의 정체성, 생애사, 관찰된 행동과 세심하게 연결한 고유한 데이터셋을 구축했다.
WDP의 연구 책임자이자 설립자인 데니즈 허징(Denise Herzing) 박사는 수중에서 직접 작업하며 돌고래의 소리와 특정 행동을 연결해왔다. 연구팀은 여러 중요한 패턴을 발견했는데, 그중에서도 특히 주목할 만한 것은 어미와 새끼가 재결합할 때 사용하는 고유한 서명 휘슬(signature whistles)이다. 또한 돌고래들이 싸움 중에 자주 발생시키는 버스트-펄스 형태의 “스콰크(squawks)” 소리와 구애 중이나 상어를 쫓을 때 사용하는 클릭 “버즈(buzzes)” 소리 패턴도 식별했다. 이러한 발견들은 돌고래의 의사소통 방식에 대한 중요한 통찰력을 제공하고 있다.
구글이 개발한 돌핀제마는 구글의 사운드스트림(SoundStream) 토크나이저를 활용해 돌고래 소리를 효율적으로 표현한다. 약 4억 개의 매개변수를 가진 이 모델은 WDP가 현장에서 사용하는 픽셀(Pixel) 폰에서 직접 실행될 수 있도록 최적화됐다.
돌핀제마는 구글의 경량 오픈소스 모델인 제마(Gemma)의 통찰력을 기반으로 한다. 제미나이(Gemini) 모델을 구동하는 기술과 동일한 연구를 토대로 구축된 제마의 기술을 활용한 것이다. WDP의 야생 대서양 반점 돌고래 음향 데이터베이스로 광범위하게 훈련된 돌핀제마는 오디오 입력과 출력이 가능한 모델로, 자연적인 돌고래 소리 시퀀스를 처리하여 패턴과 구조를 식별하고 궁극적으로 시퀀스에서 다음에 올 가능성이 높은 소리를 예측한다. 이는 인간 언어를 위한 대규모 언어 모델이 문장에서 다음 단어나 토큰을 예측하는 방식과 유사하다.
WDP는 또한 조지아 공과대학과 협력하여 CHAT(Cetacean Hearing Augmentation Telemetry) 시스템을 개발했다. CHAT은 돌고래의 복잡한 자연 언어를 직접 해독하는 것이 아니라, 더 간단한 공유 어휘를 확립하기 위해 설계된 수중 컴퓨터다. 이 개념은 먼저 연구원들이 사용하는 사르가숨, 해초 또는 스카프와 같은 돌고래가 좋아하는 특정 물체와 새로운 합성 휘슬(CHAT이 만든, 자연적인 돌고래 소리와 구별되는)을 연결하는 것에 의존한다. 인간 간에 시스템을 시연함으로써, 연구원들은 자연적으로 호기심이 많은 돌고래들이 이러한 물건들을 요청하기 위해 휘슬을 모방하는 법을 배울 것을 기대한다.
구글 픽셀 6은 실시간으로 돌고래 소리의 고충실도 분석을 처리했다. 구글 픽셀 9를 중심으로 한 다음 세대(2025년 여름 연구 예정)는 스피커/마이크 기능을 통합하고 딥 러닝 모델과 템플릿 매칭 알고리즘을 동시에 실행하기 위해 폰의 고급 처리 기능을 활용하여 이러한 노력을 발전시킨다. 조지아 공대의 테드 스타너(Thad Starner) 교수이자 구글 딥마인드(Google DeepMind) 연구 과학자는 픽셀 스마트폰을 사용하면 맞춤형 하드웨어의 필요성이 크게 줄어들고, 시스템 유지 관리가 향상되며, 전력 소비가 줄어들고, 장치의 비용과 크기가 줄어든다고 말했다. 이는 바다에서의 현장 연구에 중요한 이점이다.
구글은 과학적 발견에서 협력의 가치를 인식하고 올해 여름 돌핀제마를 오픈 모델로 공개할 계획이다. 대서양 반점 돌고래 소리로 훈련되었지만, 병 코돌고래나 긴부리돌고래와 같은 다른 고래류를 연구하는 연구자들에게도 유용할 것으로 예상된다.
해당 모델에 대한 자세한 사항은 링크에서 확인할 수 있다.
이미지 출처: 구글
기사는 클로드와 챗gpt를 활용해 작성되었습니다.