Gemma 4와 함께 최첨단 에이전틱 기능을 엣지 기기에서 만나보세요

2026-04-02

요약

Google DeepMind가 최첨단 오픈 모델 제품군인 Gemma 4를 출시했습니다. Gemma 4는 별도의 파인튜닝 없이도 다단계 계획, 자율적 행동, 오프라인 코드 생성, 오디오-비주얼 처리 등 에이전틱 AI 기능을 온디바이스에서 구현할 수 있으며, 140개 이상의 언어를 지원합니다.

인사이트

Gemma 4는 별도의 파인튜닝 없이도 멀티 스텝 계획, 자율적 행동, 코드 생성, 오디오-비주얼 처리 같은 최첨단 에이전틱 AI 기능을 온디바이스에서 바로 구현할 수 있게 해줘요.
개발자들은 안드로이드의 AICore 개발자 프리뷰나 Google AI Edge를 통해 Gemma 4를 사용할 수 있고, 모바일, 데스크톱, 엣지 기기 등 다양한 환경에서 에이전틱 경험을 만들 수 있어요.
새로운 도구인 Google AI Edge Gallery의 'Agent Skills'와 LiteRT-LM은 메모리 최적화, 구조화된 출력(constrained decoding), 동적 컨텍스트 등의 기능을 제공하며, IoT 기기에서도 뛰어난 성능을 보여 온디바이스 AI 개발을 한층 더 쉽게 만들어줘요.

왜 중요한가

이 기술은 정말 중요해요. 강력하고 자율적인 AI 기능을 사용자 기기에 바로 가져와서 개인 정보 보호를 강화하고, 레이턴시를 줄여주며, 오프라인에서도 작동하게 해주거든요. 개발자들이 클라우드 연결 없이도 더 스마트하고 반응성 좋은 맞춤형 앱을 만들 수 있게 해줘서 모바일, IoT, 엣지 컴퓨팅 분야에서 새로운 가능성을 열어줘요.

#Gemma4 #온디바이스AI #엣지AI

Gemma 4와 함께 최첨단 에이전틱 기능을 엣지 기기에서 만나보세요 - Google Developers 블로그

검색

Gemma 4와 함께 최첨단 에이전틱 기능을 엣지 기기에서 만나보세요

2026년 4월 2일

Google AI Edge 팀

Image 3: Gemma 4 배너 이미지 2

오늘은 Google DeepMind에서 여러분의 하드웨어에서 가능한 것들을 다시 정의하는 최첨단 오픈 모델 제품군인 Gemma 4를 출시했어요. 이제 Apache 2.0 라이선스로 제공되는 Gemma 4는 온디바이스 AI 개발을 위한 강력한 툴킷을 개발자들에게 제공해요. Gemma 4를 사용하면 챗봇을 넘어 기기에서 직접 에이전트 및 자율 AI 사용 사례를 구축할 수 있어요. Gemma 4는 특수 파인튜닝 없이도 다단계 계획, 자율적 행동, 오프라인 코드 생성, 심지어 오디오-비주얼 처리까지 가능하게 해줘요. 또한 140개 이상의 언어를 지원하여 전 세계 사용자들을 위한 모델이에요.

비디오 1

Gemma 4는 140개 이상의 언어로 시각적 처리 및 지원을 제공해요

Google AI 엣지 팀은 오늘부터 엣지 기기에서 Gemma 4의 광범위한 기능을 경험할 수 있게 되어 정말 기뻐요! 새로운 AICore 개발자 프리뷰를 통해 안드로이드에 내장된 Gemma 4 모델을 이용하거나, Google AI Edge를 활용해서 모바일, 데스크톱, 엣지 기기 전반에 걸쳐 에이전틱 인앱 경험을 만들 수 있어요.

이번 포스트에서는 Google AI Edge Gallery와 LiteRT-LM을 모두 활용해서 Google AI Edge를 시작하는 방법을 보여드릴 거예요.

Google AI Edge Gallery에서 Gemma 4로 에이전트 기술을 만나보세요

iOS와 안드로이드에서 사용할 수 있는 Google AI Edge Gallery는 온전히 기기에서 실행되는 AI 경험을 만들고 실험할 수 있게 해줘요. 오늘 Google AI 엣지 팀은 온디바이스에서 다단계 자율 에이전틱 워크플로우를 실행하는 첫 번째 애플리케이션 중 하나인 Agent Skills 출시를 발표하게 되어 매우 기쁩니다. Gemma 4를 기반으로 하는 Agent Skills는 다음과 같은 일을 할 수 있어요:

지식 기반 증강: Gemma 4는 에이전트의 지식 확장 경험을 가능하게 하는 기술을 사용해서 초기 훈련 데이터를 넘어서는 정보에 접근할 수 있어요. 예를 들어, 위키피디아를 쿼리하는 기술을 만들어서 에이전트가 모든 백과사전적 질문에 대해 쿼리하고 응답할 수 있게 할 수 있죠.

비디오 2

위키피디아 또는 다른 지식 소스 쿼리하기

풍부하고 인터랙티브한 콘텐츠 생성: 긴 글이나 비디오를 간결한 요약이나 학습용 플래시카드로 변환하거나, 데이터를 인터랙티브한 시각화 자료나 그래프로 바꿀 수 있어요. 예를 들어, 사용자의 음성 입력에 따라 하루 수면 시간과 기분 변화 추세를 자동으로 요약하고 그래프로 보여주는 기술을 만들 수 있죠.

비디오 3

그래프, 플래시카드 및 기타 시각화 자료 만들기

Gemma 4의 핵심 기능 확장: 텍스트-음성 변환, 이미지 생성 또는 음악 합성 같은 다른 모델들과 통합할 수 있어요. 예를 들어, 사용자가 사진과 완벽하게 어울리는 분위기의 음악을 자동으로 페어링하는 기술을 활용할 수 있어요.

비디오 4

다른 모델과 통합하여 음악을 합성하고 이미지를 이해하기

포괄적인 엔드투엔드 경험 생성: 여러 앱을 왔다 갔다 할 필요 없이, 사용자는 Gemma 4와의 대화를 통해 복잡한 워크플로우를 관리하고 자신만의 애플리케이션을 직접 만들 수 있어요. 이를 설명하기 위해, Google AI 엣지 팀은 동물의 울음소리를 설명하고 재생하는 작동하는 앱을 만들었어요.

비디오 5

다단계 워크플로우와 엔드투엔드 경험 만들기

Gemma 4 E2B 및 E4B 모델을 직접 경험하고 싶다면, 지금 바로 Google AI Edge Gallery 앱을 확인해 보세요. 앱 내에서 가이드를 통해 여러분만의 기술을 쉽게 실험하고 만들 수 있어요. 여러분이 어떤 것을 만들지, 그리고 GitHub Discussion에서 여러분의 기술을 공유하는 모습을 어서 빨리 보고 싶어요!

LiteRT-LM으로 모든 기기에서 Gemma 4 활용하기

Gemma 4를 인앱으로 배포하거나 더 광범위한 기기에서 사용하고 싶은 개발자들을 위해, LiteRT-LM은 전체 하드웨어 스펙트럼에 걸쳐 뛰어난 성능을 제공해요. LiteRT-LM은 이미 수백만 명의 안드로이드 및 엣지 개발자들에게 고성능 라이브러리인 XNNPack과 ML Drift로 신뢰받는 LiteRT 위에 GenAI(생성형 AI) 전용 라이브러리를 추가한 거예요. LiteRT-LM은 이 스택을 기반으로 다음의 새로운 기능들을 통해 모델 성능을 향상시켜줘요:

최소 메모리 사용량: LiteRT의 2비트 및 4비트 가중치 지원과 메모리 매핑된 레이어별 임베딩 덕분에 일부 기기에서 1.5GB 미만 메모리로 Gemma 4 E2B를 실행할 수 있어요.
구조화된 디코딩: 매번 구조화되고 예측 가능한 출력을 얻어서, 여러분의 AI 기반 앱과 도구 호출(tool-calling) 스크립트가 프로덕션 환경에서도 안정적으로 작동하도록 보장해 줘요.
동적 컨텍스트: CPU와 GPU에서 단일 모델을 동적 컨텍스트 길이로 유연하게 처리할 수 있어서, Gemma 4의 128K 컨텍스트 윈도우를 최대한 활용할 수 있어요.

에이전틱 사용 사례에 필요한 확장된 컨텍스트 길이를 지원하기 위해, LiteRT-LM은 최첨단 GPU 최적화를 활용해서 2가지의 다른 기술에서 4,000개의 입력 토큰을 3초 미만으로 처리해요.

LiteRT-LM은 또한 라즈베리 파이 5와 같은 IoT 및 엣지 기기에도 더 작은 Gemma 4 모델들을 가져오면서 다양한 플랫폼에서 설득력 있는 성능을 제공해요. 라즈베리 파이 5에서 CPU로 실행할 경우 초당 133개의 프리필 토큰과 초당 7.6개의 디코드 토큰에 도달하고, 퀄컴 드래곤윙 IQ8(Qualcomm Dragonwing IQ8)의 NPU 가속을 사용하면 초당 3,700개의 프리필 토큰과 초당 31개의 디코드 토큰으로 훨씬 더 인상적인 성능을 보여줘요.

시작할 준비가 되셨나요? 전체 가이드와 기기별 성능 지표를 보려면 LiteRT-LM 문서를 확인해 보세요. Gemma 4 E2B와 Gemma 4 E4B의 개별 모델 카드도 볼 수 있어요.

어떤 기기에서도 실행하세요

Gemma 4는 오늘부터 전례 없는 다양한 플랫폼에서 지원돼요:

모바일: 안드로이드와 iOS 모두에서 CPU/GPU 지원이 가능해요. 개발자들은 안드로이드의 내장 및 최적화된 Gemma 4 모델을 안드로이드 AICore를 통해 시스템 전체에서 접근하고 배포할 수도 있어요.
데스크톱 및 웹: Windows, Linux, macOS (Metal을 통해)에서 끊김 없는 성능을 보여주며, WebGPU를 기반으로 하는 네이티브 브라우저 기반 실행도 가능해요.
IoT 및 로봇공학: 아두이노 벤투노 Q(Arduino VENTUNO Q)에 전력을 공급하는 라즈베리 파이 5와 퀄컴 드래곤윙 IQ8 프로세서를 통해 Gemma 4를 엣지 기기로 가져오고 있어요.

오늘, Google AI 엣지 팀은 콘솔에서 Gemma를 더 쉽게 실험하고 IoT 기기를 위한 Gemma 기반 파이썬 파이프라인을 구동할 수 있도록 새로운 파이썬 패키지와 CLI 도구도 출시했어요. litert-lm CLI는 Linux, macOS, 그리고 라즈베리 파이에서 사용할 수 있어서, 개발자들이 코드를 작성하지 않고도 최신 Gemma 4 모델 기능을 시험해 볼 수 있게 해줘요. 이 CLI는 이제 Google AI Edge Gallery에서 Agent Skills를 구동하는 도구 호출(tool calling)도 지원해요. LiteRT-LM을 위한 파이썬 바인딩은 파이썬에서 온디바이스 LLM 파이프라인을 깊이 있게 맞춤 설정할 수 있는 유연성을 제공합니다. 터미널에서 LiteRT-LM을 시작하는 것은 가이드를 사용하면 정말 간단해요.

온디바이스 에이전틱 경험의 시대가 왔어요. 여러분도 엣지에서 빌드를 시작할 생각에 기대되실 거예요. 어떤 기기에서 개발하든 상관없이, Google AI Edge Gallery의 Agent Skills 예시와 LiteRT-LM 시작 가이드로 시작해 보세요. 여러분이 무엇을 만들지 정말 기대돼요!

감사의 글

이 프로젝트에 기여해주신주요 기여자분들께특별한 감사의 말씀을 전합니다:

Advait Jain, Alice Zheng, Amber Heinbockel, Andrew Zhang, Byungchul Kim, Cormac Brick, Daniel Ho, Derek Bekebrede, Dillon Sharlet, Eric Yang, Fengwu Yao, Frank Barchard, Grant Jensen, Hriday Chhabria, Jae Yoo, Jenn Lee, Jing Jin, Jingxiao Zheng, Juhyun Lee, Lu Wang, Lin Chen, Majid Dadashi, Marissa Ikonomidis, Matthew Chan, Matthew Soulanille, Matthias Grundmann, Milen Ferev, Misha Gutman, Mohammadreza Heydary, Pradeep Kuppala, Qidong Zhao, Quentin Khan, Ram Iyengar, Raman Sarokin, Renjie Wu, Rishika Sinha, Rodney Witcher, Ronghui Zhu, Sachin Kotwani, Suleman Shahid, Tenghui Zhu, Terry Heo, Tiffany Hsiao, Tyler Mullen, Wai Hon Law, Weiyi Wang, Xiaoming Hu, Xu Chen, Yishuang Pang, Yi-Chun Kuo, Yu-Hui Chen, Zichuan Wei, 그리고 gTech 팀