Gemma 4 12B: 개발자 가이드

2026-06-03

요약

구글이 발표한 Gemma 4 12B는 16GB VRAM에서도 로컬 실행이 가능한 멀티모달 모델로, 인코더 없는 통합 아키텍처를 통해 시각·오디오 처리 레이턴시를 줄이고 개발자 친화적인 도구와 함께 출시되었습니다.

인사이트

인코더 없는(encoder-free) 아키텍처로 별도 시각/오디오 인코더 없이 LLM 백본이 직접 멀티모달 입력을 처리해 레이턴시와 메모리 사용량을 낮췄다.
처음으로 Gemma 패밀리에서 오디오 입력을 지원하는 중간 크기 모델로, 자동 음성 인식 및 화자 분할(diarization) 등이 가능하다.
LiteRT-LM과 함께 MacOS 네이티브 앱, 로컬 API 서버, 주요 추론 프레임워크(Hugging Face, llama.cpp 등)를 통해 로컬 AI 개발 생태계를 강화했다.

왜 중요한가

이번 Gemma 4 12B는 로컬에서 구동 가능한 멀티모달 AI의 새로운 기준을 제시합니다. 인코더 없는 아키텍처로 인해 기존 대비 더 빠르고 메모리 효율적인 추론이 가능하며, 오디오 입력을 기본 지원함으로써 음성 상호작용 애플리케이션 개발이 한결 쉬워졌습니다. 특히 16GB VRAM만 있으면 GPU 노트북에서도 동작하는 점은 개발자 데스크톱 환경에 실용적인 AI를 도입하는 중요한 전환점이 됩니다.

#Gemma 4 #다중모달 모델 #로컬 AI

2026년 6월 3일

런칭 블로그에서 발표한 대로, 우리는 Gemma 4 12B를 공개합니다. 이는 통합된 인코더 없는 아키텍처(unified, encoder-free architecture) 를 가진 고밀도(dense) 멀티모달 모델입니다.

Gemma 4 12B는 로컬 AI 분야에서 여러 이정표를 세웁니다:

멀티모달 인코더 없는 아키텍처: 다단계의 무거운 시각·오디오 인코더를 완전히 생략하고 멀티모달 데이터를 LLM 백본에 직접 공급하므로 멀티모달 레이턴시가 줄어듭니다.
오디오 입력을 지원하는 첫 번째 중간 크기 모델: Gemma 패밀리에서 오디오 입력은 소형 경량 엣지 아키텍처(예: E4B)로 제한되었습니다. Gemma 4 12B는 오디오를 기본적으로 소화할 수 있는 첫 번째 중간 크기 모델입니다.
개발자 친화적인 크기: 16GB VRAM 또는 통합 메모리를 갖춘 GPU 노트북에서 로컬 실행이 가능할 정도로 작습니다. 로컬 추론 속도를 극대화하기 위해 전용 멀티 토큰 예측(MTP) 모델도 추가로 공개합니다.
새로운 MacOS 데스크톱 경험: 처음으로 다운로드 가능한 macOS 데스크톱 애플리케이션을 제공하여 개발자가 일반 소비자용 기기에서 완전한 로컬 음성 및 시각 상호작용을 직접 경험할 수 있게 되었습니다.

아키텍처

전통적인 멀티모달 모델은 고정된 별도의 시각 인코더(예: Gemma 4는 엣지 크기용으로 1억 5천만 파라미터 시각 모델, 중간 크기 모델용으로 5억 5천만 파라미터 모델 사용)와 오디오 인코더(Gemma 4 E2B 및 E4B용으로 3억 파라미터)에 의존합니다. 여러 개의 개별 인코더로 멀티모달 입력을 처리한 후 LLM에 공급하면 레이턴시가 증가하고 메모리 사용량이 파편화됩니다.

Gemma 4 12B는 단일 디코더 전용 트랜스포머를 사용하여 이러한 문제를 해결하며, Gemma 4 31B Dense 모델과 동일한 고급 디코더 구조를 포함합니다.

이미지 1: 개요

시각 임베더(3,500만 파라미터): 다른 중간 크기 Gemma 4 모델의 27개 시각 트랜스포머 레이어를 대체합니다. 원시 48x48 픽셀 패치를 단일 행렬 곱셈으로 LLM 은닉 차원에 투영합니다. 분해된 좌표 조회(X 및 Y 행렬)가 위치 정보를 입력에 직접 첨부합니다.
오디오 파형 투영: 별도의 오디오 인코더를 제거합니다(Gemma 4 E2B 및 E4B에서 사용된 12개 컨포머 레이어를 생략). 원시 16kHz 오디오 신호를 40ms 프레임(640개 부동소수점 값)으로 나누고 선형으로 LLM 입력 공간에 투영합니다.
통합 파인튜닝의 장점: 시각, 오디오, 텍스트 입력이 정확히 동일한 가중치를 공유하므로 더 이상 별도의 고정 인코더를 함께 튜닝할 필요가 없습니다. 다운스트림 어댑터(예: LoRA) 또는 전체 튜닝이 단일 패스(Hugging Face 또는 Unsloth를 통해)로 전체 멀티모달 토큰 루프를 자연스럽게 업데이트합니다.

인코더 없는 아키텍처의 더 자세한 개요는 A Visual Guide to Gemma 4 12B를 확인하세요.

성능

Gemma 4 12B는 자동 음성 인식, 에이전트 추론, 화자 분할(diarization), 비디오 이해, 코딩 등 뛰어난 성능을 제공합니다.

아래 예시를 통해 모델의 에이전트 및 멀티모달 성능을 확인할 수 있습니다:

예시 1: Gemma 4 12B가 Gemma 4 12B를 사용하는 로컬 이미지 처리 앱 제작

비디오 5

에이전트 및 멀티모달 이해 능력 덕분에 Gemma 4 12B는 OpenCode 같은 기존 에이전트 프레임워크와 쉽게 함께 사용할 수 있습니다. 이 예시에서는 llama.cpp로 로컬 서빙하고 gemma-skills를 사용하여 사용자가 이미지를 처리할 수 있는 Gradio 앱을 코딩했습니다. 이 앱은 바로 그 앱을 만든 Gemma 4 12B 모델로 구동되었습니다!

예시 2: 1FPS로 5분 분량의 비디오를 오디오와 함께 처리

우리는 Gemma 4 12B를 사용하여 5월 19일 Google IO 기조연설 순간 중 00:15:32부터 00:20:45까지의 5분을 분석했습니다. 이를 위해 해당 구간의 모든 프레임(1FPS)과 프롬프트, 비디오 오디오를 추출했습니다:

프롬프트:

프레임 313장 (1FPS, 이미지는 시각 토큰 예산 70으로 크기 조정)
"man이 셀카를 찍을 때 무슨 일이 일어나는가?"
비디오 오디오 + 아래 프롬프트

이 데모 비디오에서 man이 "셀카"를 찍거나 얼굴 앞에 스마트폰을 들고 있는 장면은 AI 모델이 개인 사진이나 비디오 클립 같은 기존 미디어를 가져와 "재상상"하는 방법을 시각적으로 표현하는 영리한 방식입니다. 이 특정 클립에서 모델은 셀카를 찍어 이를 기반으로 다양한 시나리오(예: 우주 정거장에 있는 사람, 숲속을 걷는 사람)를 생성하고 있습니다. 본질적으로 man은 실제로 셀카를 찍는 것이 아니라 AI가 특정 입력(셀카)을 가져와 전혀 새로운 콘텐츠의 세계를 생성하는 능력에 대한 시각적 은유를 연기하고 있습니다. 이는 Gemini Omni 모델의 'Swap' 및 'Build worlds' 데모의 일부로, 복잡한 멀티모달 추론 및 창의적 생성 능력을 보여줍니다.

온디바이스 및 데스크톱 서빙: LiteRT-LM 기반

Gemma 4 12B 출시와 함께, 우리는 공식적으로 LiteRT-LM으로 구동되는 강력한 온디바이스 개발자 통합 기능을 소개합니다. 이를 통해 표준 데스크톱 환경에서 지연 시간 없는 로컬 AI 실행이 가능해집니다:

1.네이티브 MacOS 앱: 모바일 Google AI Edge Gallery가 공식적으로 데스크톱 플랫폼으로 확장되어, Apple Silicon GPU에서 Gemma 4 12B를 오프라인으로 네이티브 실행합니다. 채팅 버블 안에서 과학 차트를 작성, 실행, 플롯팅할 수 있는 안전한 샌드박스 Python 실행 루프를 제공합니다. 이와 함께 Mac용 Google AI Edge Eloquent 앱이 Gemma 12B를 지원하여 Voice Edit 대화형 입력을 지원합니다.

비디오 6

2. 드롭인 로컬 API 서버 (litert-lm serve): 새로운 litert-lm serve CLI 명령어를 사용하여 Gemma 4 12B를 로컬 OpenAI 호환 API 서버로 실행하세요. 표준 통합(예: Continue, Aider, OpenClaw, Hermes 또는 OpenCode)을 매끄럽게 연결하여 메모리 내 비상태 프리픽스 캐싱을 활용해 컨텍스트 히스토리를 매칭하고 프리필(prefill) 레이턴시를 즉시 우회합니다.

litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm  gemma-4-12B-it.litertlm gemma4-12b

# OpenAI 호환 서버 시작
litert-lm serve

셸

복사됨

자세한 내용은 Google AI Edge Gallery 블로그에서 확인하세요.

지금 시작하기

Gemma 패밀리 최초의 인코더 없는 아키텍처로 로컬 멀티모달 에이전트를 구축할 준비가 되셨나요? 지금 바로 시작하는 방법입니다:

직접 사용해보세요: LM Studio, Ollama, Google AI Edge Gallery 앱, Google AI Edge Eloquent 앱 및 LiteRT-LM CLI에서 몇 번의 클릭으로 실험해보세요.
가중치 다운로드: 사전 훈련 및 명령어 튜닝된 체크포인트를 Hugging Face와 Kaggle에서 직접 다운로드하세요.
통합 및 학습: 개발자 문서와 퀵스타트 노트북을 검토하세요.
즐겨 사용하는 개발 도구 사용: Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM으로 로컬 추론 파이프라인을 구현하거나 Unsloth로 효율적으로 파인튜닝하세요.
Gemma Skills로 에이전트 개발 활용하기: 최신 Gemma 발전 사항을 활용한 에이전트 구축을 지원하기 위해 공식 Skills Repository를 공개합니다. 이는 에이전트가 Gemma 모델로 구축할 수 있도록 특별히 설계된 스킬 라이브러리입니다.
원하는 방식으로 배포: Google Cloud를 사용하여 프로덕션에서 엔드포인트를 가동하세요. Gemini Enterprise Agent Platform Model Garden, Cloud Run 및 GKE를 통해 배포하세요.