• Home
  • AI Report
  • 당신의 AI는 어디서 작동하나? 클라우드와 온디바이스 AI의 진화와 공존

당신의 AI는 어디서 작동하나? 클라우드와 온디바이스 AI의 진화와 공존

클라우드 AI vs 온디바이스 AI: 공존과 진화의 방향
이미지 출처: 이디오그램 생성

클라우드 AI vs 온디바이스 AI: 공존과 진화의 방향


IT 역사 재현: 서버-클라이언트에서 FM-SLM으로 진화하는 AI 컴퓨팅

삼성전자 SDS 인사이트 보고서 ‘클라우드 AI vs 온디바이스 AI: 공존과 진화의 방향’에 따르면, 최근 인공지능 기술은 두 가지 방향으로 발전하고 있다. 하나는 클라우드에서 작동하는 거대한 파운데이션 모델(FM, Foundation Model)이고, 다른 하나는 스마트폰이나 PC 등 사용자 디바이스에서 직접 실행되는 스몰 랭귀지 모델(SLM, Small Language Model)이다. 이러한 구조는 컴퓨팅 역사에서 서버와 클라이언트가 함께 발전해온 패턴과 유사하다.

컴퓨팅 환경은 1960~70년대 메인프레임 중심의 중앙집중형 구조에서 1980년대 PC의 등장으로 분산형으로 진화했다. 그러나 2000년대 들어 인터넷 대역폭 증가와 모바일 기기 보급으로 다시 클라우드 기반의 중앙집중형 모델이 부상했다. 최근에는 에지 컴퓨팅(edge computing)의 등장으로 일부 연산을 단말에서 처리하는 추세가 나타나고 있다. 이러한 패턴은 “중앙집중 → 분산 → 재 중앙집중”의 사이클을 그리며 발전해왔으며, 중앙과 말단은 항상 공존하면서 상호보완적 관계를 유지해왔다.

하루 70만 달러의 클라우드 AI: 강력한 성능과 네 가지 현실적 한계

ChatGPT로 대표되는 파운데이션 모델은 수백억~수천억 개의 파라미터를 가진 거대 모델로, 중앙 클라우드에서 작동한다. 이러한 클라우드 AI는 강력한 성능과 확장성을 갖추고 있다. 데이터센터의 강력한 컴퓨팅 자원을 활용해 디바이스에서는 불가능한 복잡한 모델을 구동할 수 있으며, 필요에 따라 수평적으로 자원을 확장(스케일 아웃)해 수많은 사용자의 요청에 탄력적으로 대응할 수 있다.

또한 클라우드 AI는 동일 데이터센터 내의 다양한 서비스 및 데이터베이스와 연동이 용이하다. 마이크로소프트의 클라우드 Copilot은 사용자의 이메일, 일정, 문서 등을 종합적으로 분석하는 서비스를 제공하는데, 이는 클라우드 AI가 여러 서비스의 데이터에 접근할 수 있기 때문에 가능하다. 모델 업데이트나 유지보수도 서버 측에서 일괄 수행할 수 있어 관리가 효율적이다.

그러나 클라우드 AI에는 현실적인 제약도 존재한다. 첫째, 레이턴시(latency) 문제다. 사용자의 요청이 네트워크를 통해 왕복해야 하므로 응답이 지연된다. 둘째, 비용 문제다. 거대 모델을 운영하는 데이터센터는 전력과 하드웨어 비용이 매우 높다. 한 분석에 따르면 ChatGPT 같은 대형 LLM 서비스를 운영하는 데 하루 약 70만 달러의 추론 비용이 소모된다고 한다.

셋째, 보안과 개인정보 문제다. 사용자 데이터가 외부 서버로 전송되면서 유출 위험이나 프라이버시 침해 우려가 있다. 특히 의료, 금융, 법률 등 민감 데이터를 다루는 분야에서는 클라우드 업로드가 제한되기도 한다. 마지막으로, 인터넷 의존성이다. 클라우드 AI는 항상 온라인 상태를 전제로 하므로 네트워크 연결이 없는 환경에서는 사용할 수 없다.

밀리초 단위 응답의 온디바이스 AI: 스마트폰의 NPU가 가져온 혁신과 한계

온디바이스 AI는 작은 규모의 머신러닝 모델을 스마트폰이나 PC 등에 탑재하여 기기 내에서 직접 AI 연산을 수행하는 방식이다. 최근 스마트폰에는 신경망 연산에 특화된 NPU(Neural Processing Unit)가 내장되고, PC에도 AI 가속 전용 칩이 등장하면서 디바이스 자체의 AI 처리 능력이 크게 향상되었다.

온디바이스 AI의 가장 큰 장점은 빠른 응답 속도다. 네트워크 레이턴시가 없어 실시간 처리가 가능하다. 구글은 2019년 픽셀폰에 온디바이스 음성 인식 기능을 도입해 오프라인에서도 실시간으로 음성을 텍스트로 변환할 수 있도록 했다. 로컬에서 직접 처리하면 반응 시간이 몇 밀리초 수준으로 짧아져 사용자 경험이 크게 향상된다.

또한 데이터가 외부로 나가지 않고 디바이스 내부에서 처리되므로 프라이버시가 보호된다. 최신 아이폰의 시리는 가능한 한 사용자의 음성 명령을 기기 내에서 인식 처리하고, 개인화 기능도 클라우드에 데이터를 전송하지 않도록 설계되어 있다. 인터넷 연결 없이도 동작할 수 있어 네트워크가 불안정한 환경에서도 사용이 가능하며, 클라우드처럼 요청당 추가 비용이 발생하지 않아 경제적이다.

그러나 온디바이스 AI에도 한계가 있다. 가장 큰 제약은 모델 성능과 용도의 제한이다. 디바이스에서 실시간으로 구동할 수 있도록 모델을 경량화해야 하기 때문에 거대 언어모델 수준의 고차원적인 지능 구현은 어렵다. 스마트폰의 온디바이스 AI는 얼굴 인식이나 키보드 자동완성 등 특정 기능에는 뛰어나지만, ChatGPT처럼 방대한 지식을 바탕으로 다양한 작업을 수행하기는 어렵다.

또한 하드웨어 자원의 제약도 있다. 스마트폰은 데이터센터에 비해 CPU, GPU 성능과 메모리 용량이 훨씬 적고 전력도 제한적이다. 따라서 온디바이스에서 구동하는 AI 모델은 크기가 제한되며, 이 한계를 넘어서는 요구가 생기면 결국 클라우드의 도움이 필요하다. 모델 업데이트도 어렵다. 클라우드 AI는 서버 측 업데이트로 즉각 최신 모델을 적용할 수 있지만, 온디바이스 AI는 수많은 기기에 개별 업데이트를 해야 한다.

두뇌와 반사신경처럼: 애플·삼성·구글이 이미 도입한 하이브리드 AI 전략

클라우드 AI와 온디바이스 AI의 장단점을 고려할 때, 양측의 강점을 혼합한 하이브리드 모델이 최적의 대안이 될 것이다. 현대의 많은 AI 서비스는 이미 이러한 하이브리드 방식을 채택하고 있다. 스마트폰 음성 비서의 경우, 간단한 명령어는 온디바이스 AI가 실시간으로 처리하고, 복잡한 질문에 대해서는 클라우드의 거대 모델이 답변을 생성해 기기로 전송한다.

애플의 시리는 프라이버시 관련 작업은 아이폰 내에서 처리하고, 웹 검색이나 방대한 지식이 필요한 요청만 서버에 질의하는 방식으로 운영된다. 또한 애플은 프라이빗 클라우드 컴퓨팅 개념을 도입해 아이폰이 더 큰 모델의 지원이 필요할 때 클라우드와 익명화된 방식으로 통신하여 연산만 수행하고 결과를 받아오도록 설계하고 있다.

삼성도 온디바이스 AI와 클라우드 AI를 병행해 사진 갤러리 추천이나 음성 텍스트 변환(STT) 같은 작업은 기기 내에서 처리하고, 고품질 번역이나 복잡한 이미지 편집 등은 클라우드 서비스를 호출하는 방식으로 운영 중이다. 마이크로소프트 역시 Windows에 Copilot을 도입해 로컬 PC의 작업 내용은 기기에서 처리하고, 종합적인 지원은 클라우드 GPT-4를 활용하는 방식으로 역할을 분담하고 있다.

또 다른 하이브리드 접근법으로 연합학습(Federated Learning)이 있다. 이는 각 디바이스가 자신의 데이터로 로컬 모델을 학습한 후 변화분만을 서버에 전송하여 통합하는 방식이다. 스마트폰 키보드 앱이 사용자의 타이핑 습관을 학습할 때, 각 기기에서 모델을 미세조정한 후 그 결과만 모아 서버에서 통합 모델을 업데이트하는 방식으로 구글의 Gboard 키보드 등이 이미 연합학습을 도입하고 있다.

앞으로 AI 컴퓨팅은 초거대 AI 모델(FM)과 디바이스 속 AI(SLM)가 공존하며 협력하는 구조가 일반화될 것이다. 이는 마치 인체의 두뇌와 반사신경처럼, 중요한 결정은 중앙에서 처리하고 사소한 반응은 말단에서 처리하는 방식과 유사하다. 즉각적인 처리가 필요한 경우에는 온디바이스 AI가, 방대한 지식과 복잡한 연산이 필요한 경우에는 클라우드 AI가 최적의 역할을 수행하게 될 것이다.

FAQ

Q: 클라우드 AI와 온디바이스 AI의 주요 차이점은 무엇인가요?

A: 클라우드 AI는 데이터센터의 강력한 컴퓨팅 자원을 활용해 거대한 AI 모델을 구동하는 방식으로, 높은 성능을 제공하지만 인터넷 연결이 필요하고 응답 속도가 느립니다. 반면 온디바이스 AI는 사용자의 기기 내에서 직접 AI 연산을 수행하는 방식으로, 빠른 응답 속도와 프라이버시 보호가 장점이지만 모델 성능과 기능이 제한적입니다.

Q: 하이브리드 AI란 무엇이며 왜 중요한가요?

A: 하이브리드 AI는 클라우드 AI와 온디바이스 AI의 장점을 결합한 방식입니다. 간단한 작업은 기기에서 빠르게 처리하고, 복잡한 작업은 클라우드로 전송해 처리합니다. 이를 통해 속도와 프라이버시, 그리고 강력한 AI 성능을 모두 확보할 수 있어 사용자 경험을 최적화할 수 있습니다.

Q: 연합학습(Federated Learning)이란 무엇인가요?

A: 연합학습은 각 디바이스가 자신의 데이터로 로컬 모델을 학습한 후, 원본 데이터가 아닌 학습된 모델의 변화분만 서버로 전송하여 중앙에서 통합하는 방식입니다. 이를 통해 개인 데이터가 기기 밖으로 유출되지 않으면서도 AI 모델의 전체 성능을 향상시킬 수 있어 프라이버시와 성능 향상을 동시에 달성할 수 있습니다.

해당 기사에서 인용한 보고서 원문은 링크에서 확인할 수 있다.

이미지 출처: 이디오그램 생성

기사는 클로드와 챗GPT를 활용해 작성되었습니다. 




당신의 AI는 어디서 작동하나? 클라우드와 온디바이스 AI의 진화와 공존 – AI 매터스