Gemma 4 12B를 당신의 노트북으로: Google AI Edge로 로컬, 에이전틱 워크플로우를 자유롭게 활용해요

2026-06-03

요약

구글 딥마인드의 최신 오픈 모델인 Gemma 4 12B를 Google AI Edge 스택과 함께 노트북에서 바로 실행하며, 강력한 온디바이스 에이전틱 AI 경험을 할 수 있어요.

인사이트

Gemma 4 12B가 Google AI Edge를 통해 일반 노트북에서도 강력한 온디바이스 AI 기능을 제공하기 시작했어요.
새롭게 업데이트된 Google AI Edge Gallery, Eloquent, 그리고 LiteRT-LM CLI는 데이터 분석, 음성 기반 텍스트 편집, 로컬 LLM 서버 구축 등 다양한 에이전틱 워크플로우를 가능하게 해요.
모든 데이터 처리가 기기 내에서 이뤄져서 개인 정보 보호를 강화하고, 낮은 레이턴시로 빠른 응답성과 비용 효율성까지 잡을 수 있어요.

왜 중요한가

이 기술은 강력한 대규모 언어 모델(LLM)을 클라우드 없이도 일반 사용자의 기기에서 직접 구동할 수 있게 함으로써 AI 접근성을 크게 높여줘요. 개발자들이 개인 정보 보호, 낮은 레이턴시, 그리고 오프라인 기능이 중요한 애플리케이션을 더 쉽게 만들 수 있는 새로운 가능성을 열어주는 거죠.

#Gemma4 #GoogleAIEdge #온디바이스AI

2026년 6월 3일

구글 딥마인드의 최신 오픈 모델인 Gemma 4 12B는 에이전틱 멀티모달 지능을 당신의 노트북으로 직접 가져오기 위해 설계되었어요. 이 모델의 강점과 Google AI Edge 스택을 결합하면, 여러분은 일반적인 기기에서도 즉시 로컬에서 직접 개발하고 실험할 수 있어요 (사양 요구 사항은 모델 카드 참고).

이 모델과 런타임의 조합은 자율적인 데이터 처리, 풍부한 시각적 인사이트 생성부터 완전한 기능의 웹페이지 구축, 일상적인 도구 사용 실행에 이르기까지 강력한 온디바이스 기능을 가능하게 해요. 지금 바로 Google AI Edge를 통해 Gemma 4 12B와 상호작용을 시작할 수 있어요:

Google AI Edge Gallery로 Gemma를 탐색해 보세요. 이 앱은 구글의 로컬 AI 쇼케이스 앱인데, 이제 macOS에서도 사용할 수 있어요. 12B 모델을 사용하면 데이터 분석 같은 작업을 위한 스크립트를 즉석에서 생성하고 실행할 수 있어요.
온디바이스 음성 받아쓰기 앱인 Google AI Edge Eloquent도 이제 macOS에서 사용할 수 있어요. 구글 팀은 새로운 Gemma 4 12B 모델을 기반으로, 음성 명령을 통해 텍스트를 대화형으로 다듬고 다시 작성하는 기능을 전적으로 온디바이스에서 추가했어요.
LiteRT-LM CLI의 새로운 _serve_ 명령을 통해 LiteRT-LM은 이제 터미널에서 로컬, 산업 표준 호환 엔드포인트를 직접 제공할 수 있어요. Gemma 4 12B와 함께 사용하면, 이는 완전한 로컬 에이전틱 도구, 하네스, 워크플로우를 구동하기 위한 매우 유능하고 효율적인 옵션이에요.

macOS에서 Google AI Edge Gallery로 코딩하기

이제 macOS에서 사용할 수 있는 Google AI Edge Gallery 앱은 Gemma 4 12B의 코딩 기능을 보여주면서, 기기에서 바로 데이터에서 의미 있는 인사이트를 추출할 수 있게 해줘요. 매끄러운 인터페이스를 통해 자연어로 분석 목표를 간단히 설명할 수 있어요. 아래 예시에서는 모델에게 두 개의 텍스트 파일에 담긴 데이터를 가지고 "2024년과 2025년에 태어난 여아 상위 10개 이름을 비교하는 차트 PNG를 파이썬 프로그램으로 렌더링해 줘"라고 요청했어요. 이에 모델은 파이썬 코드를 동적으로 생성하고, 로컬에서 실행하며, 원본 데이터를 아름답고 이해하기 쉬운 시각화와 인사이트로 변환해 줘요.

Video 7

고급 코딩으로 넘어가면, Gemma 4 12B는 단순히 스크립트를 작성하는 데 그치지 않아요. 복잡한 3D 렌더링 작업에서, 구글 팀은 단 한 번의 사용자 프롬프트만으로 모델이 의존성 지정과 함께 고무 오리 렌더링을 생성하고, 코드를 생성하며, 스스로 수정하는 이 모든 과정을 한 번에 해내는 것을 관찰했어요.

Image 1: rubber_duck_3d_plot

Prompt: "use trimesh to write a python program to render the attached obj file to a png file"

오늘 macOS용 Google AI Edge Gallery를 다운로드하고 Gemma 4 12B로 로컬 코딩을 시도해 보세요.

Google AI Edge Eloquent로 받아쓰기 및 음성 기반 편집하기

Video 8

AI 기반 받아쓰기 및 편집 앱인 Google AI Edge Eloquent는 당신의 가공되지 않은 생각을 매끄럽게 다듬어진 텍스트로 자연스럽게 바꿔줘요. 새로운 macOS 데스크톱 버전은 모든 기능이 100% 온디바이스에서 실행되어 강력하고 완벽한 오프라인 경험을 보장해요. 편리하고 사용자 지정 가능한 단축키를 사용하면, Eloquent로 Mac의 어떤 애플리케이션에서도 음성 받아쓰기를 할 수 있어요. 또한, Eloquent는 오디오 또는 비디오 파일을 완전히 로컬에서 텍스트로 변환하는 것을 지원해요.

Gemma 4 12B의 고급 추론 능력을 활용해서, 구글 팀은 데스크톱 워크플로우에서 어떤 텍스트든 음성 명령만으로 변환할 수 있는 새로운 기능인 Voice Edit을 선보이고 있어요. 예를 들어, 단락을 하이라이트하고 "이 메모들을 요약 보고서로 재구성해 줘" 또는 "이것을 힌디어로 번역해 줘"라고 말할 수 있어요. Gemma 4 12B를 통해 구글 팀은 이전 모델에 비해 훨씬 뛰어난 지시 따르기 능력, 더 엄격한 범위 준수, 그리고 전체적인 품질에서 60% 이상의 도약을 보았어요.

오늘 macOS용 Google AI Edge Eloquent를 다운로드하고 Gemma 4 12B의 강력한 온디바이스 AI 받아쓰기 및 편집 보조 기능들을 경험해 보세요.

드롭인 로컬 서빙을 포함한 LiteRT-LM으로 구축하기

LiteRT-LM CLI는 언어 모델을 로컬에서 실행하기 위한 가볍고 코드가 필요 없는 도구를 제공해요. 구글 팀은 이제 serve 명령으로 이 도구를 확장해서 CLI가 드롭인 로컬 LLM 서버 역할을 할 수 있게 했어요. 이 기능을 Gemma 4 12B와 함께 사용해서 모든 표준 도구, SDK 또는 프레임워크(OpenClaw, Hermes, OpenCode, Pi, Continue 및 Aider와 같은 인기 확장 프로그램 포함)를 로컬 엔드포인트로 직접 연결할 수 있어요.

# Import the Gemma 4 12B model as "gemma4-12b"
litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm gemma-4-12B-it.litertlm gemma4-12b

# Start the OpenAI-compatible server
litert-lm serve

Shell

Copied

curl http://localhost:9379/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4-12b,gpu",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

Shell

Copied

Video 9 LiteRT-LM CLI serve 명령 시연: Gemma 4 12B를 Open WebUI와 연결해서 원샷 파티클 효과 데모를 위한 산업 표준 호환 로컬 엔드포인트를 만드는 모습이에요.

일상 노트북에서도 바로 사용 가능해요

Gemma 4 12B를 실행하면 온디바이스 AI 기반 기능을 일반 노트북에서도 폭넓게 사용할 수 있게 돼요. 성능 및 메모리 벤치마크는 LiteRT-LM 모델 카드에서 확인해 보세요. 이 새로운 모델의 강력한 기능과 Google AI Edge의 최적화된 성능 및 사용 편의성을 결합하면, 여러 번 상호작용하는 로컬 에이전트를 구축하거나, Google AI Edge Gallery에서 데이터를 분석하거나, Google AI Edge Eloquent로 글쓰기 작업을 효율화할 수 있어요. 게다가 데이터는 기기에 남아 있으면서도 안정적인 응답성, 유용성, 비용 효율성을 유지할 수 있죠.

감사의 글

이 프로젝트에 대한 공헌에 특별히 감사드리는 주요 기여자분들(알파벳순)에게 감사 인사를 전해요:

Advait Jain, Alice Zheng, Alex Kanaukou, Ami Kubota, Changming Sun, Cormac Brick, Denis Daletski, Fengwu Yao, Hriday Chhabria, Jingxiao Zheng, Jingtao Zhou, Jenn Lee, Jianing Wei, Jing Jin, Lin Chen, Lu Wang, Marius Kintel, Marissa Ikonomidis, Matthias Grundmann, Mogan Shieh, Mohammadreza Heydary, Matthew Soulanille, Na Li, Qidong Zhao, Queenie Zhang, Ram Iyengar, Rishika Sinha, Sachin Kotwani, Suleman Shahid, Suril Shah, Tenghui Zhu, Wai Hon Law, Weiyi Wang, Xiaoming Hu, Xinan Cheng, Yi-Chun Kuo, Yishuang Pang, Yu-hui Chen.