华为昇腾推理对决：开源vLLM vs 官方MindIE数据说话「Qwen与DeepSeek推理实测」开云体育

开云体育NEWS CENTER

您当前位置：首页 > 开云体育

2025-06-19

浏览次数：次

　　华为昇腾推理引擎MindIE和开源vLLM Ascend在单卡推理、多卡并行和多并发处理等维度展开对比测试。

　　2.实验基于开源模型服务平台GPUStack进行，保证复现性和易用性，快速完成部署与测试。

　　3.结果显示，vLLM Ascend在中小模型单卡部署场景下表现更优，但在高并发和多卡部署场景中，MindIE更具优势。

　　4.总体来说，两者在不同部署场景下各有优势，实际选型应结合业务需求、资源条件和生态支持情况综合判断。

　　5.GPUStack作为开源MaaS平台，有效简化了vLLM Ascend和MindIE的部署和配置流程，推动国产AI基础设施体系的发展。

　　，并原生支持 Atlas 800 A2 系列和 Atlas 300i Duo（昇腾 910B 和 310P），但其

　　开源社区也在积极推进对昇腾 NPU 的支持。尤其值得关注的是，近段时间

　　，实现了对 Atlas 800 A2 系列的支持（预计在 2025 年 Q3 支持 Atlas 300i Duo）。其

　　系统地评估 vLLM Ascend 与 MindIE 在实际推理场景中的性能差异

　　集成了 MindIE、vLLM（vLLM Ascend）、llama-box

　　（llama.cpp）等多个后端，避免了用户在部署过程中反复踩坑和冗长的环境配置流程。平台原生支持昇腾上的多种模型类型，包括

　　兼容昇腾的多机多卡推理场景，其中 vLLM 和 llama-box 已实现多机分布式推理支持，MindIE 分布式功能也在开发计划中

　　：无缝支持 Apple Mac、Windows PC 和 Linux 服务器上各种供应商（NVIDIA、AMD、Apple、昇腾、海光、摩尔线程、天数智芯）的 GPU。

　　：支持各种模型，包括大语言模型 LLM、多模态 VLM、图像模型、语音模型、文本嵌入模型和重排序模型。

　　：支持与 llama-box（llama.cpp 和 stable-diffusion.cpp）、vox-box、vLLM 和 Ascend MindIE 等多种推理后端的灵活集成。

　　：自动评估模型资源需求、后端和架构兼容性、操作系统兼容性以及其他与部署相关的因素。

　　调试昇腾设备在实际操作中远比 NVIDIA 环境复杂，尤其在依赖项编译、推理引擎集成等方面常常阻碍开发流程。

　　，为后续选型和优化提供直接的数据支持。因此，我们将在 GPUStack 上

　　根据文档要求完成对应版本的 NPU 驱动和 Docker 运行时的安装后，通过 Docker 启动 GPUStack 服务

　　指定管理界面的访问端口（使用 Atlas 300i Duo 的用户，可以参照安装文档选择对应的 310P 镜像，vLLM Ascend 暂不支持 310P）：

　　-v /usr/local/dcmi:/usr/local/dcmi \

　　-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \

　　-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \

　　-v /etc/ascend_install.info:/etc/ascend_install.info \

　　-v gpustack-data:/var/lib/gpustack \

　　查看容器日志确认 GPUStack 是否正常运行（需要注意的是，昇腾 NPU

　　），将导致 GPUStack 无法正常使用 NPU。在此情况下，需先停止占用 NPU 的其他容器，释放设备资源）：

　　若容器日志显示服务启动正常，使用以下命令获取 GPUStack 控制台的初始登录密码：

　　/var/lib/gpustack/initial_admin_password

　　在浏览器中通过服务器 IP 和自定义的 9090 端口访问 GPUStack 控制台（

　　），使用默认用户名 admin 和上一步获取的初始密码登录。登录 GPUStack 后，在资源菜单即可查看识别到的 NPU 资源

　　。由于本文聚焦单机性能对比，相关集群部署内容不作展开，感兴趣的读者可参考前文提到的官方安装文档获取详细说明。

　　部署模型，国内网络推荐从 ModelScope 部署。在 GPUStack UI，选择

　　从 ModelScope 分别部署以下模型，并分别选择 MindIE 和 vLLM 后端，部署不同后端的模型服务。由于 MindIE 和 vLLM 后端默认的独占显存参数设置，当前资源不足以运行所有模型，本文将根据需要灵活停止和启动不同的模型进行测试。

　　GPUStack 提供了智能计算模型资源需求和分配资源的自动化调度功能，对于 7B 模型和 14B 模型，默认仅会分配单卡。如果想强制分配更多的卡数量：

　　完成后，模型运行如下所示（注：根据所需，停止和启动不同模型进行测试）：