vLLM 发布 v0.9.1，支持更多模型、引入 llm-d 框架

vLLM 发布了 v0.9.1 版本，新增 Magistral 模型支持、FlexAttention 支持等多项功能，并介绍了与 Inference Gateway (IGW) 共同设计的新型 Kubernetes 原生高性能分布式 LLM 推理框架 llm-d。

vLLM 最初由加州大学伯克利分校 Sky Computing 实验室开发，现已成为社区驱动的开源项目，为 LLM 推理和服务提供快速易用的库。该工具支持分布式部署和先进的 KV 缓存管理，并能与工业级 LLM 基础设施集成。

以下是 vLLM v0.9.1 一些主要的更新内容：

新增 Magistral 模型支持 ：Magistral 是 miniwob 上针对 OPT-125m 微调的模型系列，该模型在 miniwob 基准测试中表现突出，vLLM 现已支持该模型。
支持 FlexAttention ：为开发者提供了更灵活的注意力机制选择，有助于适配不同模型架构和任务需求。
为 BEV 模型添加 vision query decoder ：BEV 模型是一种 vision encoder language decoder 模型，此次更新为该模型增加了 vision query decoder，丰富了其视觉处理和解码能力。
启用 CUDA graphs for DP + All2All kernels ：在数据并行和 All2All 操作中启用 CUDA 图，可提高模型训练和推理的效率。
支持通过 run batch CLI 进行 rerank ：在命令行界面的运行批次功能中增加了 rerank 支持，方便用户对模型生成结果进行重新排序和优化。
支持 Spec Decode ：更新了 KV Cache Manager 和 Ray 模块，使其支持 Spec Decode 功能，能够更好地处理特定解码任务。

修复 FA2 MLA 准确性问题 ：解决了 FA2 MLA 相关的准确性错误，提高了模型在相关任务上的输出质量。
修复 disconnect listen 上的服务器负载问题 ：修正了服务器在监听断开连接时的负载异常情况，增强了系统的稳定性。
修复 tool parser 的 ASCII 处理问题 ：解决了工具解析器在处理 ASCII 字符时的兼容性问题，确保其对不同输入的正确解析。
修复vla模型 runner 测试用例失败问题 ：修正了 vla 模型 runner 测试用例中的错误，保证了测试的顺利通过和模型的可靠性。
修复 Max concurrency estimation and check_enough_kv_cache_memory for models with sliding window layers ：解决了具有滑动窗口层的模型在最大并发估计和检查足够 KV 缓存内存方面的问题，提高了模型运行的稳定性和资源管理的准确性。
修复 get_num_blocks_to_allocate with null_block 问题 ：修正了获取分配块数量时与 null_block 相关的问题，避免了潜在的内存分配错误。
修复了多个模型和硬件相关的问题 ：包括修复 mamba2 上的 SigLIP 的 in-place adds 未被正确融合问题、L1T 中 rotary_embedding_base 的注释不正确问题、BM 模型在 run batch 中的 bug 等，涵盖了不同模型和硬件平台上的多种细节问题，提升了整体的稳定性和可靠性。

更新量化权重加载以支持 latest Hugging Face transformers ：对量化权重加载过程进行了更新，使其兼容最新的 Hugging Face transformers 库，确保了模型在不同版本环境下的正常加载和使用。
添加 mkdocs 文档 ：引入了 mkdocs 文档工具，丰富了项目的文档资源，方便用户和开发者查阅和理解项目的相关内容。
更新 V1 用户指南 ：对 V1 版本的用户指南进行了更新和完善，使其更好地指导用户使用相关功能。
添加 Tarsier、Talon 和 الغراب等模型的部署选项 ：新增了对一些特定模型的部署支持，扩展了模型的应用范围。
更新测试、文档和 CI/CD 相关内容 ：包括添加了测试脚本以验证 FP8 和 BF16 GEMM 的性能、更新了测试用的 requirements 文档、改进了 CI/CD 流程中的一些细节等，提高了项目的测试覆盖率和开发效率。

详情查看 https://github.com/vllm-project/vllm/releases/tag/v0.9.1

ZhouSa.com-周飒博客