讨论列表 - SmolLM-135M-GQA-d_kv_128:可用于在昇腾 NPU 上快速验证文本生成模型推理,该项目实现了 SmolLM-135M-GQA-d_kv_128 模型在 vLLM-Ascend 环境的零成本原生支持,具备高推理精度与良好性能。【此简介由AI生成】 - AtomGit AI社区