DFlash是一种轻量级块扩散模型,专为推测性解码而设计。它能够实现高效、高质量的并行绘图。
投机解码(Speculative Decoding) 是一种相当有效的方法,可解决传统大语言模型推理中的“单令牌(逐词)生成”瓶颈。
其工作流程是:先由一个小型草稿模型生成多个后续令牌,再由大型目标模型通过一次前向传播并行验证它们。
如果某个位置的令牌被验证为错误,则保留该位置之前的所有正确令牌,并从此处继续生成。该方法的最终输出质量绝不会劣于传统解码方式。
然而,当前投机解码中使用的草稿模型仍然是逐个预测令牌的。这导致草稿生成阶段本身成为了新的瓶颈,使得实际场景中的加速比通常只能达到 2–3 倍。
DFlash 是一项新技术,它用轻量级的**块扩散模型(Block Diffusion Model)**取代了自回归草稿模型,能够在一个前向传播中并行预测所有令牌。
无论投机预测的令牌数量有多少,草稿生成的计算开销都保持恒定。
此外,草稿模型会接收来自目标模型多个层的隐藏特征,并将这些特征注入到草稿生成的每一层中。得益于这种上下文信息的注入,其预测精度相比无此机制的模型有了显著提升。
如上方演示所示,传统解码的速度为 48.5 令牌/秒,而 DFlash 在同一模型上达到了 415 令牌/秒,且没有任何质量损失。
该技术目前已集成到 vLLM、SGLang 和 Transformers 框架中。针对 Qwen3、Qwen3.5、Llama 3.1、Kimi-K2.5、gpt-oss 等众多模型的草稿模型也已上架 HuggingFace。
GitHub 仓库:https://github.com/EsnBl0ckdev/dflash
KV 缓存(KV-Caching) 是加速大语言模型推理的另一项核心技术。关于它的详细介绍,可参考这篇文章。https://x.com/_avichawla/status/2034902650534187503
https://github.com/EsnBl0ckdev/dflash
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...