合并请求 - Qwen_Qwen3-0.6B-FP8:用户可在华为昇腾 NPU 上部署 Qwen3-0.6B-FP8 模型进行文本生成。核心功能:通过补丁实现 FP8 权重自动反量化为 BF16 推理,支持 vLLM 原生架构,保持兼容性,提供 API 服务与性能压测方案。【此简介由AI生成】 - AtomGit AI社区