google-developers
구글 TPU에서 LLM 추론 가속화: 확산 스타일 투기적 디코딩으로 3배 속도 향상 달성
구글 TPU에서 LLM 추론 속도를 획기적으로 개선하기 위해, UCSD 연구팀이 기존 투기적 디코딩의 병목 현상을 해결하는 '확산 스타일 투기적 디코딩(DFlash)'을 구현하여 평균 3.13배, 특정 작업에서는 최대 6배까지 빠른 속도를 달성했어요.
google-developers
구글 TPU에서 LLM 추론 속도를 획기적으로 개선하기 위해, UCSD 연구팀이 기존 투기적 디코딩의 병목 현상을 해결하는 '확산 스타일 투기적 디코딩(DFlash)'을 구현하여 평균 3.13배, 특정 작업에서는 최대 6배까지 빠른 속도를 달성했어요.
google-developers
TorchTPU는 PyTorch를 구글 TPU에서 네이티브로 실행할 수 있는 스택입니다. 세 가지 Eager 모드(Debug, Strict, Fused)를 제공하며 Fused Eager는 자동 연산 융합으로 50~100% 이상 성능을 향상시킵니다. torch.compile을 통한 XLA 기반 정적 컴파일과 DDP, FSDPv2, DTensor 등 분산 API를 지원하여 대규모 분산 훈련에 최적화되어 있습니다. 또한 MPMD와 같은 분기 실행을 지원하고, 2026년에는 동적 형태 지원, Helion 커널, vLLM/TorchTitan 통합 등을 계획하고 있습니다.