DeepSeek R1 MTP在TensorRT-LLM中的实现与优化
TensorRT-LLM 在 NVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现了大幅提速。我们在之前的博客[1]中介绍了 DeepSeek-R1 模型实现超低推理延迟的关键优化措施。本文将深入探讨 TensorRT-LLM 中的 MTP 实现与优化。
MTP 在推理中的应用
受先前研究工作的启发,MTP 用于辅助 DeepSeek-V3 的训练,在主模型末尾添加额外的 MTP 模块,并使用这些模块预测更多 token。这可以将 MTP 的预测范围扩展到每个位置的多个候选 to