LiteRT와 NPU로 현실 세계 온디바이스 AI 구축하기

2026-04-23

요약

Google이 개발한 크로스 플랫폼 프레임워크인 LiteRT가 NPU(신경망 처리 장치) 가속을 통해 모바일 및 다양한 기기에서 고성능 온디바이스 AI를 효율적으로 구현하는 방법을 소개하고, 실제 적용 사례를 공유하는 글이에요.

인사이트

LiteRT는 NPU의 복잡성을 추상화하는 통합 API를 제공하여, 개발자들이 다양한 벤더의 NPU에 벤더별 코드 없이 쉽게 접근하고 고성능 AI 모델을 배포할 수 있도록 돕습니다.
NPU 가속은 Google Meet의 25배 큰 Ultra-HD 모델, Epic Games의 30 FPS 실시간 메타휴먼 애니메이션, Argmax의 2배 빠른 음성 인식 등 실제 앱에서 CPU/GPU 대비 상당한 속도 및 전력 효율성 향상을 보여줍니다.
LiteRT는 모바일뿐만 아니라 산업용 IoT 기기, AI PC 등 다양한 하드웨어 스펙트럼 전반에서 NPU 가속을 지원하며, Google AI Edge Gallery 앱과 Portal 벤치마킹 서비스를 통해 개발자들이 성능을 검증하고 최적의 배포 결정을 내릴 수 있도록 돕습니다.

왜 중요한가

온디바이스 AI는 즉각적인 반응성, 개인 정보 보호, 오프라인 기능 덕분에 사용자 경험을 혁신할 수 있는 잠재력이 커요. 하지만 기기 발열, 배터리 소모, 성능 저하 없이 복잡한 AI 모델을 기기에서 직접 실행하는 건 정말 어려운 일이었죠. LiteRT는 이런 문제를 해결해 NPU 가속을 쉽게 활용할 수 있도록 함으로써, 개발자들이 다양한 기기에서 배터리나 성능 걱정 없이 최첨단 AI 기능을 구현할 수 있게 해줘요.

#온디바이스AI #NPUs #LiteRT

LiteRT와 NPU로 현실 세계 온디바이스 AI 구축하기 - Google 개발자 블로그

검색

LiteRT와 NPU로 현실 세계 온디바이스 AI 구축하기

2026년 4월 23일

Chintan Parikh 제품 매니저

Shuangfeng Li 소프트웨어 엔지니어

Weiyi Wang 소프트웨어 엔지니어

Gerardo Carranza 소프트웨어 엔지니어

제미니 생성 이미지

사용자들은 모바일 앱에서 실시간 비디오 효과, ASR(자동 음성 인식), 모션 캡처 같은 즉각적인 AI 기능의 혜택을 누리고 있어요. 하지만 개발자 입장에서는 정교한 모델을 온디바이스로 실행하는 것이 기기 발열 관리, 배터리 수명 유지, 프레임 드롭 방지 같은 고유한 문제들을 해결해야 하는 어려운 균형을 맞춰야 해요. 성능 저하 없이 빠르고 반응성 좋은 AI 경험을 제공하기 위해 LiteRT는 이러한 워크로드를 위해 특별히 제작된 하드웨어인 **NPU(신경망 처리 장치)**의 잠재력을 열어줘요.

LiteRT는 크로스 플랫폼 프로덕션 준비 완료 온디바이스 AI 프레임워크로, 모바일, 데스크톱, IoT 플랫폼 전반에 걸쳐 CPU, GPU, NPU 가속을 제공해요. 성능과 확장성을 염두에 두고 설계된 LiteRT는 통합 API를 통해 고속 AI 기능 배포를 간소화해요. 이 API는 여러 NPU SDK와의 통합 복잡성을 추상화해서, 개발자들이 벤더별 코드를 작성하지 않고도 다양한 실리콘을 타겟팅할 수 있게 해줘요.

NPU 성능을 의미 있는 경험으로 바꾸기

LiteRT는 이미 Google 제품, 인기 앱, 심지어 SDK에 이르기까지 검증을 마쳤어요. Google Meet, Epic Games, Argmax Inc. 같은 업계 선두 기업들이 활용하고 있고요. NPU 가속이 실제 프로덕션 앱에서 어떻게 구현되는지 살펴보아요.

Google Meet: Google Meet은 모바일 NPU를 활용해서 이전 버전보다 25배나 큰 Ultra-HD 세그멘테이션 모델을 추론 속도 저하 없이 배포할 수 있었어요. 무엇보다 중요한 건 일관된 전력 소비를 유지해서, 일반적인 20~30분 세션 내내 더 고품질의 배경 교체를 제공하는 데 필요한 열적 여유 공간을 확보할 수 있게 했다는 점이에요.

Video 1

Epic Games, Inc.: 고품질의 실시간 애니메이션 경험은 탁월한 효율성을 요구해요. Epic의 Android용 Live Link Face (베타) 앱은 크리에이터가 단일 카메라로 퍼포먼스를 캡처한 다음, 기기에서 직접 언리얼 엔진으로 실시간 메타휴먼 얼굴 애니메이션을 생성하고 스트리밍할 수 있게 해줘요.

실시간 얼굴 해결(facial solving)은 계산 집약적이고 지속적으로 낮은 레이턴시를 필요로 해요. Epic은 NPU에서 LiteRT를 사용해서 지원되는 Android 기기에서 전용 온디바이스 가속을 활용하고, 실시간 메타휴먼 애니메이션에서 최대 30 FPS 성능을 구현할 수 있게 해요.

Video 2

NPU를 활용한 언리얼 엔진의 실시간 메타휴먼 얼굴 애니메이션

Argmax Inc.는 최근 LiteRT와 협력해서 온디바이스 음성 인식을 위한 Android용 Argmax Pro SDK를 출시했어요. Argmax는 LiteRT와 Google Play를 통한 AI Pack 기능 제공을 활용해서, Android 앱 크기 제약을 지키면서도 최고 수준의 정확도와 실시간 속도를 제공할 수 있었어요. 무엇보다, LiteRT의 AOT(Ahead-Of-Time) 컴파일을 활용해서 값비싼 온디바이스 컴파일 단계를 없앴고, 이를 통해 NVIDIA Parakeet TDT 0.6B v2 같은 최신 음성 모델을 업계 최고 수준의 낮은 레이턴시로 실행할 수 있게 됐죠.

Google Tensor, MediaTek, Qualcomm Technologies SoC 전반에 걸친 성능 테스트에서 Argmax Pro SDK는 GPU에서 NPU로 업그레이드하면 2배 이상의 속도 향상을 가져온다는 것을 보여주었어요. 속도 향상 외에도 NPU의 전력 효율성 덕분에 Heidi Health 같은 Argmax SDK 엔터프라이즈 고객사들은 배터리 수명에 미치는 영향을 완화하면서 장시간 세션 동안 안정적인 온디바이스 실시간 전사를 수행할 수 있었어요. 마지막으로, Play의 AI Pack을 통해 런타임 라이브러리와 모델을 온디맨드 다운로드로 오프로드해서, 기기가 특정 NPU에 최적화된 모델을 동적으로 다운로드받을 수 있어요.

Video 3

Argmax의 Kotlin 우선 SDK는 Google LiteRT를 통해 원활한 NPU 및 GPU 가속으로 Android에 최고 수준의 정확도와 실시간 속도를 제공해요.

Google AI Edge Gallery 앱: 개발자들이 NPU 가속의 성능을 테스트하고 검증하는 데 도움을 주기 위해, Google AI Edge Gallery 앱이 이제 특정 Gemma 모델에 대한 NPU 지원과 내장된 벤치마킹 도구를 제공하고 있다고 알려드리게 되어 기뻐요. Android에서 사용 가능한 AI Edge Gallery는 모바일 하드웨어에서 AI 성능의 진정한 잠재력을 빠르게 확인할 수 있게 해줘요. 개발자들은 Google AI Edge Gallery를 GitHub에서 접근해서 자신만의 경험을 빌드할 수도 있어요.

Video 4

Google AI Edge Gallery로 다양한 온디바이스 LLM 사용 사례를 탐색해 보세요.

하드웨어 스펙트럼 전반에서 성능 확장하기

음성, 애니메이션, 비디오 분야에서 성능 향상이 분명하지만, NPU로 가는 길은 다양한 벤더별 SDK와 복잡성 때문에 개발자들이 활용하기 어려웠던 것이 사실이에요. LiteRT는 간소화된 워크플로우와 크로스 플랫폼 지원을 제공해서, 개발자들이 성능이나 이식성을 희생하지 않고 모바일 폰부터 산업용 IoT, AI PC에 이르기까지 다양한 하드웨어에 고급 모델을 배포할 수 있게 해요.

크로스 플랫폼 NPU 지원

최근 Google AI Edge Gemma 4 블로그 게시물에서 강조했듯이, LiteRT는 NPU 가속을 모바일 너머로 확장해서 단일 프레임워크를 사용해 다양한 하드웨어에 모델을 배포할 수 있게 해줘요. 산업용 엣지(Industrial Edge)의 경우, LiteRT는 Qualcomm Dragonwing™ IQ8 시리즈와 같은 플랫폼을 지원하는데, 이 플랫폼은 Arduino VENTUNO Q에도 전력을 공급하며 Gemma 4 같은 모델로 로봇 공학 및 스마트 제조와 같은 높은 신뢰성이 요구되는 사용 사례에 적합해요. 데스크톱의 경우, LiteRT는 Intel® Core™ Ultra 시리즈 2 및 3 프로세서와의 OpenVINO™ 통합을 통해 AI PC를 위한 준비를 하고 있고, 로컬 생성 AI(GenAI) 작업 부하에 대해 상당한 전력 절약과 응답성을 제공해요.

대규모 성능 검증

Google AI Edge Portal은 100개 이상의 인기 모바일 폰에 대한 벤치마크 서비스를 제공하며, 다양한 기기, 가속기 및 구성 전반의 ML 워크로드에 대한 통찰력을 제공해요. 개발자들은 이제 AOT를 사용할지 JIT를 사용할지와 같이 자신의 사용 사례와 타겟 기기에 가장 적합한 데이터 기반의 배포 결정을 내릴 수 있어요. 최신 Portal NPU 기능을 사용하려면 여기에서 비공개 프리뷰에 등록해 주세요.

Video 5

Google AI Edge Portal 벤치마킹 결과

NPU 여정을 시작해 보세요.

Google의 프로덕션 준비 완료 NPU 통합을 통해 LiteRT는 JIT(Just-In-Time) 및 AOT(Ahead-Of-Time) 배포 전반의 저수준 복잡성을 추상화하는 통합 워크플로우를 제공해요.

지금 바로 문서를 살펴보고 NPU 가속 여정을 시작해 보세요.

문서: 포괄적인 개발 가이드를 보려면 LiteRT 및 LiteRT-LM 문서를 살펴보세요.
GitHub 리포지토리: 최신 업데이트와 구현 세부 정보를 확인하려면 LiteRT와 LiteRT-LM GitHub 리포지토리를 방문해 보세요.
샘플: 참고 코드를 확인하려면 LiteRT-Samples GitHub 리포지토리를 확인해 보세요. AI Edge Gallery 앱을 나만의 앱을 빌드하는 시작점으로 활용해 보세요.
모델: LiteRT Hugging Face 커뮤니티에서 Gemma 4와 같은 바로 사용할 수 있는 공개 모델들을 찾아보세요. Google은 오픈 가중치 모델 제품군을 지속적으로 최적화해서, 아키텍처 개선 사항이 고속 NPU 커널에 직접 매핑되도록 보장하고 있어요. 이 모델들은 LiteRT-LM CLI를 사용해서 접근할 수 있어요. 더 자세한 내용은 'Gemma 4로 최첨단 에이전틱 기술을 엣지에 가져오기'에서 확인할 수 있어요.
Google Tensor- Google Tensor ML SDK의 실험적 접근에 등록해 보세요.

Google GitHub 채널에서 이슈를 열어 피드백과 기능 요청을 알려주세요. Google은 여러분이 만들 멋진 결과물을 정말 기대하고 있어요!

감사의 말씀

Google: Akshat Sharma, Alice Zheng, Andrew Zhang, Ashley Lin, Byungchul Kim, Changming Sun, Charlie Xu, Chenchen Tang, Chunlei Niu, Cormac Brick, Derek Bekebrede, Fabian Bergmark, Fengwu Yao, Gerardo Carranza, Gregory Karpiak, Jae Yoo, Jing Jin, Jingjiang Li, Julius Kammerl, Jun Jiang, Lu Wang, Maria Lyubimtseva, Mariana Quesada, Marissa Ikonomidis, Matt Kreileder, Matthias Grundmann, Meghna Johar, Na Li, Ping Yu, Renjie Wu, Rishika Sinha, Sachin Kotwani, Salil Tambe, Siargey Pisarchyk, Siargey Pisarchyk, Somdatta Banerjee, Steven Toribio, Suleman Shahid, Terry Heo, Wai Hon Law, Weiyi Wang, Xiaoming Hu

파트너: Alen Huang, Ankit Kapoor, Arda Atahan Ibis, Atila Orhon, Brian Keene, Chen Cen, Cheng-Dao Lee. Cheng-Yen Lin, Chun-Hsueh Lee (Jack), Chun-Ting Lin (Graham), Code Lin, Deep Yap, Dylan Angus, Felix Baum, HungChun Liu, Jhih-Kuan Lin, Jiun-Kai Yang (Kelvin), Kedar Gharat, Ken Sieger, Laxmi Rayapudi, Lei Chen, Mike Tremaine, Ming-Che Lin (Vincent), Poyuan Jeng, MetaHuman Team, Vinesh Sukumar, Waimun Wong, Yi-Ru Chen, Yu-Ting Wan, Zach Nagengast

게시됨: