#구글TPU 태그의 글

google-developers

구글 TPU에서 LLM 추론 가속화: 확산 스타일 투기적 디코딩으로 3배 속도 향상 달성

2026-05-04

구글 TPU에서 LLM 추론 속도를 획기적으로 개선하기 위해, UCSD 연구팀이 기존 투기적 디코딩의 병목 현상을 해결하는 '확산 스타일 투기적 디코딩(DFlash)'을 구현하여 평균 3.13배, 특정 작업에서는 최대 6배까지 빠른 속도를 달성했어요.