#TPU 태그의 글

google-developers

구글 TPU에서 LLM 추론 가속화: 확산 스타일 투기적 디코딩으로 3배 속도 향상 달성

2026-05-04

구글 TPU에서 LLM 추론 속도를 획기적으로 개선하기 위해, UCSD 연구팀이 기존 투기적 디코딩의 병목 현상을 해결하는 '확산 스타일 투기적 디코딩(DFlash)'을 구현하여 평균 3.13배, 특정 작업에서는 최대 6배까지 빠른 속도를 달성했어요.

#LLM #TPU #구글TPU

google-developers

TorchTPU: 구글 스케일에서 PyTorch를 TPU에서 네이티브로 실행하기

2026-04-07

TorchTPU는 PyTorch를 구글 TPU에서 네이티브로 실행할 수 있는 스택입니다. 세 가지 Eager 모드(Debug, Strict, Fused)를 제공하며 Fused Eager는 자동 연산 융합으로 50~100% 이상 성능을 향상시킵니다. torch.compile을 통한 XLA 기반 정적 컴파일과 DDP, FSDPv2, DTensor 등 분산 API를 지원하여 대규모 분산 훈련에 최적화되어 있습니다. 또한 MPMD와 같은 분기 실행을 지원하고, 2026년에는 동적 형태 지원, Helion 커널, vLLM/TorchTitan 통합 등을 계획하고 있습니다.

#PyTorch #TPU #GoogleCloud