google-developers

커뮤니티가 Tunix와 TPU를 써서 Gemma에게 '생각하는 법'을 가르쳤대요!

요약

구글 튜닉스 해커톤에서 개발자들이 Tunix와 Kaggle TPU를 활용해 작은 Gemma 모델에 체인 오브 씽킹(Chain-of-Thought) 같은 복잡한 추론 능력을 성공적으로 학습시킨 방법을 소개하는 글이에요.

인사이트

  • 제한된 컴퓨팅 자원으로도 커뮤니티가 LLM에 복잡한 추론 능력을 성공적으로 학습시킬 수 있음을 증명했어요.
  • 지도 파인튜닝(SFT), 선호도 최적화(SimPO/DPO), 강화학습(GRPO) 등 다양한 후처리(Post-training) 기법을 조합하는 것이 효과적이에요. 특히 LLM을 심사위원으로 활용하는 보상 시스템이 핵심이네요.
  • Tunix와 Kaggle TPU 같은 도구를 활용하면 누구나 고성능 추론 모델을 만들 수 있는 기반이 마련되었어요.

왜 중요한가

LLM의 핵심 능력 중 하나인 '추론' 기능을 소수의 대형 연구실이 아닌 일반 개발자 커뮤니티도 비교적 적은 자원으로 성공적으로 구현할 수 있음을 보여주면서, LLM 개발의 민주화를 가속화하는 중요한 발판을 마련했어요.

2026년 5월 28일

대규모 언어 모델(LLM)은 복잡한 작업을 할 때 답변하기 전에 '생각하는' 과정을 거치면 더 좋은 결과를 내는 경우가 많아요. 제미나이 3 같은 최첨단 LLM이나 Gemma 4 같은 선두적인 오픈 가중치 모델들은 사용자 질문에 답하기 전에 흔히 사고 연쇄(Chain-of-Thought)라고 불리는 명시적인 추론 과정을 보여줄 수 있죠. 근데 이런 추론 능력을 어떻게 학습시키는지에 대한 내용은 보통 잘 공개되지 않아요. 수학이나 코딩처럼 간단하게 검증 가능한 작업을 위한 추론 튜토리얼은 인터넷에 많이 있지만, 일반적인 추론을 위한 접근하기 쉽고 따라 하기 쉬운 학습 레시피(데이터, 학습 전략, 실행 가능한 코드, 평가를 포함해서)는 아직 많이 부족한 상황이에요.

이런 배경에서 구글은 Kaggle에서 Google Tunix Hack: 모델이 작업 과정을 보여주도록 학습시키기 해커톤을 개최했어요. 개발자들에게 Tunix와 Kaggle TPU를 활용해서 추론 능력이 없는 기본 모델들(Gemma-2-2B와 Gemma-3-1B)을 일반적인 추론 모델로 변환시키는 미션을 줬던 거죠. 반응은 정말 뜨거웠어요. 11,000명이 넘는 참가자와 300개 이상의 고품질 제출작들이 매우 제한된 컴퓨팅 예산(Kaggle TPU v5e-8, 9시간)으로도 커뮤니티가 괜찮은 추론 학습을 할 수 있다는 걸 증명해냈어요. 이 글에서는 우승자들이 사용한 기술들을 집중적으로 다루고, 모델이 주요 산업 분야에서 추론할 수 있도록 돕는 핵심 레시피들을 공유할 거예요. 여러분도 여러분만의 추론 모델을 학습시킬 수 있도록 말이죠.

우승팀 하이라이트: 핵심 혁신들

우승작들은 후처리(Post-training)에 대한 정교한 이해를 보여줬는데, 지도 학습, 선호도 최적화, 강화 학습을 창의적인 방식으로 결합했어요.

🥇 1위: G-RaR (루브릭 기반 강화 학습)

G-RaR은 지도 파인튜닝(SFT)과 GRPO를 결합해서 Gemma 모델이 구조화된 추론을 생성하도록 학습시키는데, 새롭게 개발된 루브릭 기반의 'LLM-as-judge' 보상 시스템을 활용했어요.

  • 추론 능력을 향상시키는 방법 이 모델은 답변을 내놓기 전에 <reasoning> 태그 안에 '작업 과정을 보여주도록' 명시적으로 학습시켜서 추론 능력을 향상시켰어요. GRPO의 기반 기술인 G-RaR(보상으로서의 루브릭)은 더 큰 심사위원 모델(Gemma-3-12B)을 사용해서 작업별 루브릭을 기반으로 중간 논리 단계들의 품질을 평가해요. 이산적인 루브릭 점수를 연속적인 정규화된 보상 신호로 변환함으로써, 모델의 논리에 대해 밀도 높고 부드러운 피드백을 제공합니다. 이를 통해 모델은 정답 일치 여부에만 의존하지 않고 추론 능력을 지속적으로 개선할 수 있으며, 개방형이고 검증 불가능한 작업에도 매우 효과적이에요.
  • 기술 솔루션 이 팀은 2단계 후처리(Post-training) 파이프라인을 활용했어요.
    • 1단계 (SFT): Gemma-2-2B-IT 모델을 약 3.3만 개의 샘플 데이터셋으로 LoRA를 통해 파인튜닝해서 기준선을 잡아요. 이 '웜 스타트'는 모델에게 <reasoning>...</reasoning><answer>...</answer> 구조를 안정적으로 출력하는 법을 가르쳐줍니다.
    • 2단계 (GRPO): 그 다음 모델은 복합 보상 함수(형식 보상 + 정확한 답변 보상 + G-RaR 점수)를 기반으로 GRPO를 사용해서 개선됩니다. 컴퓨팅 제약을 극복하기 위해, 팀은 단일 Kaggle TPU v5e-8에서 스플릿-메쉬(split-mesh) 아키텍처를 사용해서 정책/참조 모델을 한 메쉬에, 심사위원 모델을 다른 메쉬에 배치하여 진정한 병렬 실행을 구현했어요.

🥈 2위: 피노키오-1B (세 단계로 추론 모델 만들기)

1B 파라미터 모델을 매우 효율적인 9시간 TPU 파이프라인(SFT → SimPO → GRPO)을 통해 구조화된 추론 엔진('피노키오')으로 발전시키는 과정

  • 추론 능력을 향상시키는 방법 이 모델은 답변하기 전에 구조화된 <reasoning> 추론을 생성하는 법을 배워요. 단순한 패턴 매칭에서 논리적 연역으로 전환하는 거죠. 이 과정은 순차적으로 진행되는데, SFT가 사고 연쇄(Chain-of-Thought)의 기초를 다지고, SimPO가 엄격한 형식 지정(장황한 답변 꼼수 방지)을 확립하고, GRPO는 LLM을 심사위원으로 활용하여 일관성을 보상하고 환각(Hallucination)을 강력하게 패널티를 줘서 논리를 정교하게 만들어요.

  • 기술 솔루션 파이프라인은 세 단계로 구성되어 있어요.

    • SFT (지식 증류): OSS-120B 교사 모델과 제미나이 작업 라우터를 사용해서 7만 개의 프롬프트로 학습했어요.
    • SimPO (정렬): 메모리 사용량이 많은 DPO를 대체해서 엄격한 XML 형식을 효율적으로 강제했어요.
    • GRPO (정제): 제미나이 2.0 Flash를 비동기 심사위원으로 활용해서 정확성, 논리, 형식을 동적으로 보상했어요.
  • Tunix 사용자 지정: 이 팀은 이런 워크플로우를 지원하기 위해 Tunix 라이브러리를 명시적으로 확장했어요.

    • 길이 정규화가 포함된 사용자 지정 SimPO 손실 함수를 DPOTrainer에 주입했어요.
    • GRPO 보상 신호를 즉석에서 처리하는 고처리량의 비동기 평가 엔진을 만들었어요.

🥉 3위: IDEA-E 커리큘럼 기반 GRPO 학습을 통한 지식 증류

커리큘럼 기반 GRPO와 빠른 TF-IDF 보상 시스템을 사용해서 구조화된 'IDEA-E' 윤리적 추론 프레임워크를 2B 모델에 지식 증류하는 과정이에요.

  • 추론 능력을 향상시키는 이유 IDEA-E 스캐폴드는 모델이 답변하기 전에 단계별 논리적 연역 과정을 거치도록 강제해서 성급한 추측을 막아줘요. 동시에 TF-IDF 보상은 추론 과정에서 맥락에 맞는 어휘 사용을 장려하여 장황한 '수다'를 방지합니다.

  • 기술 솔루션 파이프라인은 두 단계로 구성돼요.

    • SFT: IDEA-E 형식을 확립하기 위해 교사 데이터로 파인튜닝했어요.
    • GRPO: 느린 LLM 심사위원 대신 커리큘럼 가이드와 TF-IDF 보상을 사용한 강화 학습을 진행했어요.
  • Tunix 사용자 지정: 이 팀은 사용자 지정 TF-IDF 보상 함수를 Tunix GRPO 파이프라인에 통합해서 Tunix를 확장했어요. 덕분에 CPU에서 빠르고 논블로킹 방식으로 보상 계산이 가능해졌죠.

특별 언급

상위 3개 팀이 수상했지만, 다른 여러 제출작들도 뛰어난 창의성과 기술적 깊이를 보여줬어요.

🌟 온-정책 지식 증류를 통한 추론 유도

  • 접근 방식: 정적인 오프라인 데이터셋에만 의존하는 대신, Tunix 프레임워크 내에서 온-정책 지식 증류 방식을 처음부터 구현했어요. 더 크고 유능한 교사 모델(3단계로 학습됨)을 사용해서 학습 중에 학생 모델의 생성에 동적으로 반응하는 추론 과정을 만들고, 이를 통해 더 긴밀한 피드백 루프를 생성했죠.

🌟 Gemma2-Deep: Gemma가 답변 전에 추론하도록 유도하기

  • 접근 방식: 참가자 _TheItCrow_가 개발한 이 프로젝트는 맞춤형 데이터셋 큐레이션과 구조화된 보상 모델링에 중점을 뒀어요.
    • 그들은 사고 연쇄(Chain of Thought)를 가르치기 위해 특별히 고안된 Deep-CoRGI (Cognitive Reasoning Guided Interface) 데이터셋을 큐레이션했어요.
    • 최종 답변의 정확성뿐만 아니라 추론 단계 자체의 논리적 흐름을 평가하는 사용자 지정 ThoughtTeacher 보상 모델을 학습시켰어요.

구글은 특정 도메인에서의 추론 학습에 초점을 맞춘 여러 제출작에도 깊은 인상을 받았어요. 예를 들어 의료, 화학, 법률, 로봇 공학 분야들이죠.

  • 의료: GRPO는 구조화된 단계별 추론 과정을 생성해서 복잡한 임상 문제 해결 결과의 해석 가능성과 신뢰성을 높여줘요.
  • 화학: 단계별 추론 과정은 작은 언어 모델이 복잡한 화학 추론 작업을 해결할 수 있도록 도와주면서 화학 활용 사례에 큰 이점을 줬어요.
  • 법률: GRPO를 통한 후처리(Post-training)는 구조화된 단계별 추론을 강화해서 Gemma 3 1B 모델이 복잡한 법률 데이터를 정확하게 분석하고 신뢰할 수 있으며 논리적으로 타당한 해석을 생성할 수 있게 해줘요.
  • 로봇 공학: 단계별 추론 생성은 모델이 단일 세션 학습 제약 조건 하에서도 다단계 로봇 계획 및 의사 결정 작업을 해결할 수 있도록 해줘요.

만들 준비 되셨나요?

Tunix 해커톤은 인상적인 추론 학습 레시피를 많이 만들어내면서 고성능 구조화된 추론 모델 학습을 민주화했어요. 이 레시피들은 이제 모두 공개되어 있어요. Tunix와 무료 Kaggle TPU 덕분에 개발자들은 이제 접근 가능한 하드웨어로도 강력한 결과물을 얻을 수 있게 되었어요.

만약 여러분도 자신만의 추론 모델을 후처리(Post-training)할 준비가 되었다면, 시작하는 데 도움이 될 만한 몇 가지 자료를 소개할게요.

  1. GitHub에서 Tunix 살펴보기: 공식 Tunix 저장소에서 코드, 문서, 커뮤니티 예제를 확인해보세요.
  2. Colab 튜토리얼 사용해보기: Google Colab에서 무료 TPU 인스턴스를 실행하고 Tunix 예제를 사용해서 첫 SFT 또는 강화학습(RL) 루프를 실행해보세요.
  3. 강화 학습에 대해 더 알아보기: Tunix의 강화 학습 문서를 읽고 강화 학습을 활용해서 모델을 파인튜닝하는 방법을 이해해보세요.

이전

다음

google-developers · 원문 보기 · 2026-05-28

이 글은 원문을 한국어로 번역한 것입니다. 저작권은 원 저작자에게 있습니다.