weixin_42389394/vllm-ascend
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

vllm-ascend

vLLM Ascend 插件

DeepWiki

| 关于昇腾 | 文档 | #SIG-Ascend | 用户论坛 | 每周会议 |

English | 中文


最新动态 🔥

  • [2026/02] 我们发布了全新官方版本 v0.13.0!请按照 官方指南 开始在昇腾上使用 vLLM Ascend 插件。
  • [2025/12] 我们发布了全新官方版本 v0.11.0!请按照 官方指南 开始在昇腾上使用 vLLM Ascend 插件。
  • [2025/09] 我们发布了全新官方版本 v0.9.1!请按照 官方指南 开始在昇腾上部署大规模专家并行(EP)。
  • [2025/08] 我们与 vLLM 和腾讯共同举办了 vLLM 北京meetup!meetup 幻灯片可在 此处 获取。
  • [2025/06] 用户案例 页面现已上线!首期包含 LLaMA-Factory/verl/TRL/GPUStack,展示 vLLM Ascend‌ 如何协助昇腾用户在模型微调、评估、强化学习(RL)和部署等场景提升使用体验。
  • [2025/06] 贡献者 页面现已上线!每一份贡献都值得被记录,感谢所有贡献者。
  • [2025/05] 我们发布了首个官方版本 v0.7.3!我们与 vLLM 社区合作发布了一篇博客,分享实践经验:Introducing vLLM Hardware Plugin, Best Practice from Ascend NPU。
  • [2025/03] 我们与 vLLM 团队共同举办了 vLLM 北京meetup!meetup 幻灯片可在 此处 获取。
  • [2025/02] vLLM 社区正式创建 vllm-project/vllm-ascend 代码库,用于在昇腾 NPU 上无缝运行 vLLM。
  • [2024/12] 我们正与 vLLM 社区合作支持 [RFC]: Hardware pluggable。

概述

vLLM Ascend(vllm-ascend)是一款由社区维护的硬件插件,旨在支持vLLM在昇腾NPU上无缝运行。

它是vLLM社区中支持昇腾后端的推荐方案。该插件遵循[RFC]: Hardware pluggable中阐述的原则,提供了硬件可插拔接口,从而将昇腾NPU与vLLM的集成解耦。

通过使用vLLM Ascend插件,各类主流开源模型,包括Transformer类模型、混合专家(MoE)模型、Embedding模型以及多模态大语言模型(LLM),均能在昇腾NPU上无缝运行。

前提条件

  • 硬件:Atlas 800I A2推理系列、Atlas A2训练系列、Atlas 800I A3推理系列、Atlas A3训练系列、Atlas 300I Duo(实验性支持)
  • 操作系统:Linux
  • 软件:
    • Python >= 3.10 且 < 3.12
    • CANN == 8.5.0(昇腾HDK版本详情请参考此处)
    • PyTorch == 2.9.0,torch-npu == 2.9.0
    • vLLM(需与vllm-ascend版本保持一致)

快速开始

请使用以下推荐版本以快速开始:

版本发布类型文档说明
v0.17.0rc1最新候选发布版本详细信息请参见快速入门和安装指南
v0.13.0最新稳定版本详细信息请参见快速入门和安装指南

贡献指南

详细信息请参见贡献指南,该指南提供了分步说明,帮助您搭建开发环境、构建和测试项目。

我们欢迎并重视任何形式的贡献与合作:

  • 如遇bug,请通过提交issue告知我们
  • 有关使用问题和帮助,请访问用户论坛

分支

vllm-ascend 包含 main 分支和开发分支。

  • main:主分支,与 vLLM 主分支对应,并通过昇腾 CI 持续进行质量监控。
  • releases/vX.Y.Z:开发分支,伴随 vLLM 新版本发布而创建。例如,releases/v0.13.0 是 vLLM v0.13.0 版本的开发分支。

以下是当前维护的分支:

分支状态说明
main维护中针对 vLLM 主分支和 vLLM v0.17.0 标签的 CI 承诺
v0.7.1-dev不再维护仅允许文档修复
v0.7.3-dev维护中针对 vLLM 0.7.3 版本的 CI 承诺,仅允许 bug 修复,不再创建新的发布标签。
v0.9.1-dev维护中针对 vLLM 0.9.1 版本的 CI 承诺
v0.11.0-dev维护中针对 vLLM 0.11.0 版本的 CI 承诺
releases/v0.13.0维护中针对 vLLM 0.13.0 版本的 CI 承诺
rfc/feature-name维护中用于协作的功能分支

更多详情请参考版本控制策略。

周会

  • vLLM Ascend 周会:https://tinyurl.com/vllm-ascend-meeting
  • 时间:每周三 15:00 - 16:00(UTC+8,转换为你的时区)

许可证

Apache License 2.0,详见 LICENSE 文件。