NVIDIA, 차세대 멀티모달 AI 개발 플랫폼 ‘NeMo’ 대폭 강화

State-of-the-Art Multimodal Generative AI Model Development with NVIDIA NeMo

생성형 AI, 텍스트를 넘어 멀티모달로 진화

생성형 AI가 텍스트 기반에서 멀티모달 기능으로 빠르게 진화하고 있다. 이제 AI는 이미지 캡셔닝과 시각적 질의응답 같은 작업을 수행할 수 있게 되었으며, 이는 더욱 인간다운 AI로의 발전을 보여준다. 엔비디아(NVIDIA)는 이러한 흐름에 맞춰 생성형 AI 개발 플랫폼 ‘네모(NeMo)’를 대폭 강화했다. 이번 업데이트를 통해 텍스트뿐 아니라 이미지, 영상 등 멀티모달 AI 모델 개발을 위한 전반적인 기능이 추가됐다.

‘NeMo 큐레이터’로 대규모 데이터 처리 가속화

State-of-the-Art Multimodal Generative AI Model Development with NVIDIA NeMo

‘네모 큐레이터(NeMo Curator)’는 100페타바이트(PB) 이상의 대용량 데이터를 효율적으로 처리할 수 있는 도구다. 여러 GPU에 작업을 분산하는 부하 분산 기능을 통해 기존 대비 영상 처리 속도를 7배까지 향상했다. 특히 최적화된 캡셔닝 모델은 기존의 최적화되지 않은 추론 모델 구현과 비교해 한 자릿수 이상의 처리량 개선을 달성했다. 또한 필터링, 캡셔닝, 임베딩 단계에 최적화된 참조 모델을 제공해 데이터셋의 품질을 높일 수 있다.

혁신적인 ‘코스모스 토크나이저’로 고품질 시각 데이터 처리

엔비디아의 ‘코스모스 토크나이저(Cosmos Tokenizer)’는 3D 인과관계 합성곱(3D causal convolution) 블록과 시간적 주의 메커니즘을 활용해 시공간 정보를 효과적으로 처리한다. 입력 데이터는 3D 웨이블릿(wavelet)을 통해 다운샘플링되어 처리되며, 역변환 과정을 통해 원본을 재구성한다. 이 과정에서 토크나이저는 다양한 화면비와 해상도를 지원하며, 물리 AI나 멀티모달 LLM과 같은 실제 시스템의 인과관계적 특성과도 부합한다. 기존 오픈소스 토크나이저 대비 재구성 속도가 최대 12배 빠르며, 높은 압축률에도 우수한 품질의 결과물을 생성할 수 있다.

산업 전반에 혁신 가져올 멀티모달 AI

이번 네모 플랫폼의 확장은 로봇공학, 자동차, 소매업 등 다양한 산업 분야에 혁신을 가져올 것으로 기대된다. 특히 제조 및 물류 창고 관리를 위한 자율 주행 로봇, 자동차 산업의 자율주행 기술 발전에 큰 도움이 될 전망이다. 엔비디아는 현재 네모 큐레이터에 대한 대기자 명단을 받고 있으며, 코스모스 토크나이저는 깃허브와 허깅페이스를 통해 즉시 사용할 수 있다.

네모(NeMo) 업데이트에 대한 자세한 사항은 NVIDIA 개발자 블로그에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.