Skip to content

Latest commit

 

History

History
152 lines (122 loc) · 5.64 KB

README.zh.md

File metadata and controls

152 lines (122 loc) · 5.64 KB

vllm-ascend

vLLM Ascend Plugin

| 关于昇腾 | 开发者 Slack (#sig-ascend) |

English | 中文


最新消息 🔥


总览

vLLM 昇腾插件 (vllm-ascend) 是一个让vLLM在Ascend NPU无缝运行的后端插件。

此插件是 vLLM 社区中支持昇腾后端的推荐方式。它遵循[RFC]: Hardware pluggable所述原则:通过解耦的方式提供了vLLM对Ascend NPU的支持。

使用 vLLM 昇腾插件,可以让类Transformer、混合专家(MOE)、嵌入、多模态等流行的大语言模型在 Ascend NPU 上无缝运行。

前提

支持的设备

  • Atlas A2 训练系列 (Atlas 800T A2, Atlas 900 A2 PoD, Atlas 200T A2 Box16, Atlas 300T A2)
  • Atlas 800I A2 推理系列 (Atlas 800I A2)

依赖

需求 支持的版本 推荐版本 注意
vLLM main main vllm-ascend 依赖
Python >= 3.9 3.10 vllm 依赖
CANN >= 8.0.RC2 8.0.RC3 vllm-ascend and torch-npu 依赖
torch-npu >= 2.4.0 2.5.1rc1 vllm-ascend 依赖
torch >= 2.4.0 2.5.1 torch-npu and vllm 依赖

此处了解更多如何配置您环境的信息。

开始使用

Note

目前,我们正在积极与 vLLM 社区合作以支持 Ascend 后端插件,一旦支持,您可以使用一行命令: pip install vllm vllm-ascend 来完成安装。

通过源码安装:

# 安装vllm main 分支参考文档:
# https://docs.vllm.ai/en/latest/getting_started/installation/cpu/index.html#build-wheel-from-source
git clone --depth 1 https://github.com/vllm-project/vllm.git
cd vllm
pip install -r requirements-build.txt
VLLM_TARGET_DEVICE=empty pip install .

# 安装vllm-ascend main 分支
git clone https://github.com/vllm-project/vllm-ascend.git
cd vllm-ascend
pip install -e .

运行如下命令使用 Qwen/Qwen2.5-0.5B-Instruct 模型启动服务:

# 设置环境变量 VLLM_USE_MODELSCOPE=true 加速下载
vllm serve Qwen/Qwen2.5-0.5B-Instruct
curl http://localhost:8000/v1/models

请参阅 vLLM 快速入门以获取更多详细信息。

构建

从源码构建Python包

git clone https://github.com/vllm-project/vllm-ascend.git
cd vllm-ascend
pip install -e .

构建容器镜像

git clone https://github.com/vllm-project/vllm-ascend.git
cd vllm-ascend
docker build -t vllm-ascend-dev-image -f ./Dockerfile .

查看构建和测试以获取更多详细信息,其中包含逐步指南,帮助您设置开发环境、构建和测试。

特性支持矩阵

Feature Supported Note
Chunked Prefill Plan in 2025 Q1
Automatic Prefix Caching Imporve performance in 2025 Q1
LoRA Plan in 2025 Q1
Prompt adapter
Speculative decoding Impore accuracy in 2025 Q1
Pooling Plan in 2025 Q1
Enc-dec Plan in 2025 Q1
Multi Modality ✅ (LLaVA/Qwen2-vl/Qwen2-audio/internVL) Add more model support in 2025 Q1
LogProbs
Prompt logProbs
Async output
Multi step scheduler
Best of
Beam search
Guided Decoding Plan in 2025 Q1

模型支持矩阵

此处展示了部分受支持的模型。有关更多详细信息,请参阅 supported_models

Model Supported Note
Qwen 2.5
Mistral Need test
DeepSeek v2.5 Need test
LLama3.1/3.2
Gemma-2 Need test
baichuan Need test
minicpm Need test
internlm
ChatGLM
InternVL 2.5
Qwen2-VL
GLM-4v Need test
Molomo
LLaVA 1.5
Mllama Need test
LLaVA-Next Need test
LLaVA-Next-Video Need test
Phi-3-Vison/Phi-3.5-Vison Need test
Ultravox Need test
Qwen2-Audio

贡献

我们欢迎并重视任何形式的贡献与合作:

许可证

Apache 许可证 2.0,如 LICENSE 文件中所示。