谷歌TPU加速LLM推理：扩散式推测解码实现3倍加速

2026-05-05 #Tech

加州圣地亚哥大学（UCSD）的研究人员在谷歌TPU上成功实现了基于扩散机制的推测解码技术DFlash，并在开源vLLM框架中整合。

DFlash采用O(1)复杂度，替代了传统顺序式推测解码的O(K)流程，显著降低了推理延迟。

测试结果显示，DFlash在TPU v5p上平均token每秒增加3.13倍，在处理复杂数学任务时可达6倍的峰值加速，且整体服务速度比EAGLE-3提升了2.29倍。

该技术通过双缓存机制处理注意力机制，优化了上下文管理，并解决了元数据偏差问题，充分发挥了TPU的并行计算能力。

查看原文开头（英文 · 仅前 3 段）

MAY 4, 2026

Yarong Mu

Senior Staff Software Engineer

※ 出于版权考虑，仅引用前 3 段。完整内容请阅读原文。

— 阅读原文 ↗