讨论列表 - Qwen3-4B-Thinking-2507-FP8:可用于在昇腾NPU上部署Qwen3-4B-Thinking-2507-FP8模型进行文本生成,通过补丁实现FP8权重反量化为BF16,支持Thinking模式、Prefix Caching等功能,单卡32GB显存即可运行。【此简介由AI生成】 - AtomGit AI社区