合并请求 - Qwen3-4B-FP8-Ascend:用户可用于在昇腾NPU上部署Qwen3-4B-FP8模型进行文本生成。项目通过FP8反量化至BF16实现适配，精度损失<0.1%，支持单卡/多卡部署，提供推理及性能测试脚本。【此简介由AI生成】

合并请求 - Qwen3-4B-FP8-Ascend:用户可用于在昇腾NPU上部署Qwen3-4B-FP8模型进行文本生成。项目通过FP8反量化至BF16实现适配，精度损失<0.1%，支持单卡/多卡部署，提供推理及性能测试脚本。【此简介由AI生成】 - AtomGit AI社区