vLLM 发布了 v0.9.1 版本,新增 Magistral 模型支持、FlexAttention 支持等多项功能,并介绍了与 Inference Gateway (IGW) 共同设计的新型 Kubernetes 原生高性能分布式 LLM 推理框架 llm-d。
vLLM 最初由加州大学伯克利分校 Sky Computing 实验室开发,现已成为社区驱动的开源项目,为 LLM 推理和服务提供快速易用的库。该工具支持分布式部署和先进的 KV 缓存管理,并能与工业级 LLM 基础设施集成。
以下是 vLLM v0.9.1 一些主要的更新内容:
模型与功能支持
- 新增 Magistral 模型支持 :Magistral 是 miniwob 上针对 OPT-125m 微调的模型系列,该模型在 miniwob 基准测试中表现突出,vLLM 现已支持该模型。
- 支持 FlexAttention :为开发者提供了更灵活的注意力机制选择,有助于适配不同模型架构和任务需求。
- 为 BEV 模型添加 vision query decoder :BEV 模型是一种 vision encoder language decoder 模型,此次更新为该模型增加了 vision query decoder,丰富了其视觉处理和解码能力。
- 启用 CUDA graphs for DP + All2All kernels :在数据并行和 All2All 操作中启用 CUDA 图,可提高模型训练和推理的效率。
- 支持通过 run batch CLI 进行 rerank :在命令行界面的运行批次功能中增加了 rerank 支持,方便用户对模型生成结果进行重新排序和优化。
- 支持 Spec Decode :更新了 KV Cache Manager 和 Ray 模块,使其支持 Spec Decode 功能,能够更好地处理特定解码任务。
性能优化
- 提高 batch tokenization 性能 :优化了批量分词的流程和算法,提升了处理速度和效率。
- 优化 TPU 上的 Multi-LoRA :针对 TPU 设备上的 Multi-LoRA 技术进行了优化,提高了其在该硬件平台上的执行效率。
- 添加多模态模型推理性能优化 :对多模态模型的推理过程进行了优化,改善了其资源利用和响应时间。
修复与改进
- 修复 FA2 MLA 准确性问题 :解决了 FA2 MLA 相关的准确性错误,提高了模型在相关任务上的输出质量。
- 修复 disconnect listen 上的服务器负载问题 :修正了服务器在监听断开连接时的负载异常情况,增强了系统的稳定性。
- 修复 tool parser 的 ASCII 处理问题 :解决了工具解析器在处理 ASCII 字符时的兼容性问题,确保其对不同输入的正确解析。
- 修复vla模型 runner 测试用例失败问题 :修正了 vla 模型 runner 测试用例中的错误,保证了测试的顺利通过和模型的可靠性。
- 修复 Max concurrency estimation and check_enough_kv_cache_memory for models with sliding window layers :解决了具有滑动窗口层的模型在最大并发估计和检查足够 KV 缓存内存方面的问题,提高了模型运行的稳定性和资源管理的准确性。
- 修复 get_num_blocks_to_allocate with null_block 问题 :修正了获取分配块数量时与 null_block 相关的问题,避免了潜在的内存分配错误。
- 修复了多个模型和硬件相关的问题 :包括修复 mamba2 上的 SigLIP 的 in-place adds 未被正确融合问题、L1T 中 rotary_embedding_base 的注释不正确问题、BM 模型在 run batch 中的 bug 等,涵盖了不同模型和硬件平台上的多种细节问题,提升了整体的稳定性和可靠性。
其他更新
- 更新量化权重加载以支持 latest Hugging Face transformers :对量化权重加载过程进行了更新,使其兼容最新的 Hugging Face transformers 库,确保了模型在不同版本环境下的正常加载和使用。
- 添加 mkdocs 文档 :引入了 mkdocs 文档工具,丰富了项目的文档资源,方便用户和开发者查阅和理解项目的相关内容。
- 更新 V1 用户指南 :对 V1 版本的用户指南进行了更新和完善,使其更好地指导用户使用相关功能。
- 添加 Tarsier、Talon 和 الغراب等模型的部署选项 :新增了对一些特定模型的部署支持,扩展了模型的应用范围。
- 更新测试、文档和 CI/CD 相关内容 :包括添加了测试脚本以验证 FP8 和 BF16 GEMM 的性能、更新了测试用的 requirements 文档、改进了 CI/CD 流程中的一些细节等,提高了项目的测试覆盖率和开发效率。
详情查看 https://github.com/vllm-project/vllm/releases/tag/v0.9.1
还没有评论,来说两句吧...