合并请求 - Qwen_Qwen3-0.6B-FP8:用户可在华为昇腾 NPU 上部署 Qwen3-0.6B-FP8 模型进行文本生成。核心功能：通过补丁实现 FP8 权重自动反量化为 BF16 推理，支持 vLLM 原生架构，保持兼容性，提供 API 服务与性能压测方案。【此简介由AI生成】

2402_88120098/Qwen_Qwen3-0.6B-FP8

合并请求 - Qwen_Qwen3-0.6B-FP8:用户可在华为昇腾 NPU 上部署 Qwen3-0.6B-FP8 模型进行文本生成。核心功能：通过补丁实现 FP8 权重自动反量化为 BF16 推理，支持 vLLM 原生架构，保持兼容性，提供 API 服务与性能压测方案。【此简介由AI生成】 - AtomGit AI社区