开云体育
华为昇腾推理对决:开源vLLM vs 官方MindIE数据说话「Qwen与DeepSeek推理实测」开云体育
华为昇腾推理引擎MindIE和开源vLLM Ascend在单卡推理、多卡并行和多并发处理等维度展开对比测试。
2.实验基于开源模型服务平台GPUStack进行,保证复现性和易用性,快速完成部署与测试。
3.结果显示,vLLM Ascend在中小模型单卡部署场景下表现更优,但在高并发和多卡部署场景中,MindIE更具优势。
4.总体来说,两者在不同部署场景下各有优势,实际选型应结合业务需求、资源条件和生态支持情况综合判断。
5.GPUStack作为开源MaaS平台,有效简化了vLLM Ascend和MindIE的部署和配置流程,推动国产AI基础设施体系的发展。
,并原生支持 Atlas 800 A2 系列和 Atlas 300i Duo(昇腾 910B 和 310P),但其
开源社区也在积极推进对昇腾 NPU 的支持。尤其值得关注的是,近段时间
,实现了对 Atlas 800 A2 系列的支持(预计在 2025 年 Q3 支持 Atlas 300i Duo)。其
系统地评估 vLLM Ascend 与 MindIE 在实际推理场景中的性能差异
集成了 MindIE、vLLM(vLLM Ascend)、llama-box
(llama.cpp)等多个后端,避免了用户在部署过程中反复踩坑和冗长的环境配置流程。平台原生支持昇腾上的多种模型类型,包括
兼容昇腾的多机多卡推理场景,其中 vLLM 和 llama-box 已实现多机分布式推理支持,MindIE 分布式功能也在开发计划中
:无缝支持 Apple Mac、Windows PC 和 Linux 服务器上各种供应商(NVIDIA、AMD、Apple、昇腾、海光、摩尔线程、天数智芯)的 GPU。
:支持各种模型,包括大语言模型 LLM、多模态 VLM、图像模型、语音模型、文本嵌入模型和重排序模型。
:支持与 llama-box(llama.cpp 和 stable-diffusion.cpp)、vox-box、vLLM 和 Ascend MindIE 等多种推理后端的灵活集成。
:自动评估模型资源需求、后端和架构兼容性、操作系统兼容性以及其他与部署相关的因素。
调试昇腾设备在实际操作中远比 NVIDIA 环境复杂,尤其在依赖项编译、推理引擎集成等方面常常阻碍开发流程。
,为后续选型和优化提供直接的数据支持。因此,我们将在 GPUStack 上
根据文档要求完成对应版本的 NPU 驱动和 Docker 运行时的安装后,通过 Docker 启动 GPUStack 服务
指定管理界面的访问端口(使用 Atlas 300i Duo 的用户,可以参照安装文档选择对应的 310P 镜像,vLLM Ascend 暂不支持 310P):
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v gpustack-data:/var/lib/gpustack \
查看容器日志确认 GPUStack 是否正常运行(需要注意的是,昇腾 NPU
),将导致 GPUStack 无法正常使用 NPU。在此情况下,需先停止占用 NPU 的其他容器,释放设备资源):
若容器日志显示服务启动正常,使用以下命令获取 GPUStack 控制台的初始登录密码:
/var/lib/gpustack/initial_admin_password
在浏览器中通过服务器 IP 和自定义的 9090 端口访问 GPUStack 控制台(
),使用默认用户名 admin 和上一步获取的初始密码登录。登录 GPUStack 后,在资源菜单即可查看识别到的 NPU 资源
。由于本文聚焦单机性能对比,相关集群部署内容不作展开,感兴趣的读者可参考前文提到的官方安装文档获取详细说明。
部署模型,国内网络推荐从 ModelScope 部署。在 GPUStack UI,选择
从 ModelScope 分别部署以下模型,并分别选择 MindIE 和 vLLM 后端,部署不同后端的模型服务。由于 MindIE 和 vLLM 后端默认的独占显存参数设置,当前资源不足以运行所有模型,本文将根据需要灵活停止和启动不同的模型进行测试。
GPUStack 提供了智能计算模型资源需求和分配资源的自动化调度功能,对于 7B 模型和 14B 模型,默认仅会分配单卡。如果想强制分配更多的卡数量:
完成后,模型运行如下所示(注:根据所需,停止和启动不同模型进行测试):
切换到 6 模型对比,重复选择 vLLM Ascend 运行的模型测试 6 并发请求;
本文基于 GPUStack 的能力进行性能对比测试,更深入的性能测试可以使用 EvalScope 等工具进行。
以下为 DeepSeek R1 Distill Qwen 7B 模型在昇腾 910B 上的推理性能数据对比:
测试 DeepSeek-R1-Distill-Qwen-7B(双卡并行)
切换到 6 模型对比,重复选择 vLLM Ascend 运行的模型测试 6 并发请求;
以下为 DeepSeek R1 Distill Qwen 7B 模型在双卡昇腾 910B 上的推理性能数据对比:
切换到 6 模型对比,重复选择 vLLM Ascend 运行的模型测试 6 并发请求;
以下为 DeepSeek R1 Distill Qwen 14B 模型在单卡昇腾 910B 上的推理性能数据对比:
切换到 6 模型对比,重复选择 vLLM Ascend 运行的模型测试 6 并发请求;
以下为 DeepSeek R1 Distill Qwen 14B 模型在双卡昇腾 910B 上的推理性能数据对比:
测试 DeepSeek-R1-Distill-Qwen-32B(双卡并行)
切换到 6 模型对比,重复选择 vLLM Ascend 运行的模型测试 6 并发请求;
以下为 DeepSeek R1 Distill Qwen 32B 模型在双卡昇腾 910B 上的推理性能数据对比:
切换到 6 模型对比,重复选择 vLLM Ascend 运行的模型测试 6 并发请求;
以下为 Qwen3 32B 模型在双卡昇腾 910B 上的推理性能数据对比:
以单卡部署的 DeepSeek R1 7B 和 Qwen3 14B 为例,vLLM 在 TTFT(首 token 延迟)方面普遍低于 MindIE,部分模型在吞吐上也略有提升,显示出其在延迟敏感型应用中具有一定优势。
在多并发测试中,vLLM 能够在保持较低延迟的同时实现与 MindIE 相当甚至略高的吞吐表现,说明其在并发请求调度和资源利用方面具备一定优势。
在双卡部署的多种模型测试中,MindIE 在吞吐率方面显著优于 vLLM,TPOT 延迟也表现更优。这一差距主要源于 MindIE 对图模式和融合算子的优化支持,而当前 vLLM Ascend 仍处于单算子模式,尚未充分释放多卡性能。随着社区计划发布 vLLM Ascend 0.9,该瓶颈有望得到改善。
vLLM 目前更适用于单卡可运行的小型模型、延迟敏感和交互式应用场景;而 MindIE 更适合追求吞吐效率的大模型多卡部署。实际选型应结合业务需求、资源条件和生态支持情况综合判断。
,尽管在多卡并行等场景下仍存在一定差距,但其作为开源项目的发展潜力不可忽视。伴随社区与厂商的持续协作,
易用性、可维护性、社区活跃度,以及对新的模型、新的加速技术的支持能力,都是构建国产 AI 推理生态不可或缺的要素
。vLLM Ascend 正是这样一个探索的开端,也为更多开发者提供了参与昇腾生态建设的可能。
在本次测试过程中,为了更高效地在昇腾硬件上部署 vLLM Ascend 和 MindIE 推理服务,作者采用了开源模型服务平台 GPUStack。该平台已适配昇腾、海光等多种国产 GPU 架构,有效简化了 vLLM Ascend 和 MindIE 的部署和配置流程,显著减少了环境配置的时间成本,使测试工作得以专注于模型本身的表现与分析。
,GPUStack 的定位在于为模型推理、微调等场景和硬件适配之间提供稳定中间层。目前已有摩尔线程、天数智芯、寒武纪等厂商基于该平台进行了适配。未来,
期待有更多国产 GPU 厂商加入,共同推动更统一、更高效的开源 AI 基础设施。
。从 MindIE 到 vLLM,从底层驱动到模型服务平台,每一个环节的开源努力,都是对自主可控技术路线的真实推动。
未来,我们期待更多项目以开放的姿态汇聚在一起,共同构建真正具备竞争力的国产 AI 基础设施体系。