q
qionner/lfm2-8b-a1b-ascend-adapter
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

LFM2-8B-A1B 昇腾 NPU 适配版本

本仓库包含 LiquidAI/LFM2-8B-A1B 模型在 华为昇腾 NPU 上的适配补丁和配置文件。

模型信息

参数值
原始模型LiquidAI/LFM2-8B-A1B
架构类型lfm2_moe (Lfm2MoeForCausalLM)
参数量8B
专家数32
激活专家数4
Hidden Size2048
最大上下文128K

适配内容

本适配解决了以下昇腾 NPU 兼容性问题:

  1. ShortConv.forward_native - 提供 PyTorch 原生实现替代空实现
  2. causal_conv1d_fn/update - 替换为 vllm-ascend Ascend 优化版本
  3. short_conv op - 自动注册 torch.ops.vllm.short_conv

验证结果

环境检查

检查项状态
NPU 驱动✓ PASS
PyTorch NPU✓ PASS
vLLM 安装✓ PASS
vllm-ascend 安装✓ PASS

补丁验证

补丁状态
forward_native 补丁✓ PASS
causal_conv1d 替换✓ PASS
short_conv op 注册✓ PASS

API 测试

测试状态
ShortConv 导入✓ PASS
ShortConv 类可用✓ PASS
模型配置加载✓ PASS

精度对比

测试方法

使用相同输入文本,分别在 GPU 和 昇腾 NPU 上运行推理,对比输出结果。

测试用例

输入GPU 输出NPU 输出精度误差
"The capital of France is"Paris[待测试][待测试]
"1 + 1 equals"2[待测试][待测试]
"The largest planet is"Jupiter[待测试][待测试]

⚠️ 精度误差目标: < 1%

精度验证脚本

python benchmark/precision_verify.py

详细精度对比报告见: docs/precision_report.json

性能基准

延迟测试

指标值
P50 延迟[待测试] ms
P90 延迟[待测试] ms
P99 延迟[待测试] ms

吞吐量测试

指标值
QPS[待测试] req/s
成功率[待测试] %

性能测试脚本

python benchmark/perf_benchmark.py

详细性能报告见: docs/perf_report.json

推理正常输出证据

截图位置

推理正常输出的截图证据放在 screenshots/ 目录:

screenshots/
├── dummy_startup.png    # 模型加载/启动截图
├── inference_1.png     # 推理测试截图1
├── inference_2.png     # 推理测试截图2
└── inference_3.png     # 推理测试截图3

⚠️ 请将推理正常输出的截图上传到此目录

推理示例

运行推理:

python inference.py --prompt "The capital of France is"

预期输出:

输入: The capital of France is
输出: Paris

[耗时: XXXms, tokens: X]

文件清单

MODEL_NAME/
├── inference.py              # 推理脚本
├── readme.md                 # 本文件
├── prompts.jsonl              # 测试提示词
├── patch_lfm2_moe.py          # 核心适配补丁
├── model_config.yaml          # 模型配置
├── run_lfm2_moe_ascend.sh    # 服务启动脚本
├── benchmark/
│   ├── precision_verify.py   # 精度验证脚本
│   └── perf_benchmark.py     # 性能基准脚本
├── scripts/
│   └── setup_env.sh          # 环境安装脚本
├── docs/
│   └── 昇腾适配测评报告.md    # 详细测评报告
├── logs/
│   ├── dummy_startup.log     # 启动日志
│   └── inference.log         # 推理日志
└── screenshots/              # 截图证据(请上传)

快速使用

1. 环境准备

bash scripts/setup_env.sh

2. 启动服务

bash run_lfm2_moe_ascend.sh

3. 运行推理

# 单条推理
python inference.py --prompt "Hello, how are you?"

# 交互式推理
python inference.py --interactive

# 批量推理
python inference.py --batch prompts.jsonl --output results.json

4. 验证精度

python benchmark/precision_verify.py

5. 性能测试

python benchmark/perf_benchmark.py

硬件要求

  • 华为昇腾 Atlas 800 A2 或更高
  • vLLM 0.18.0+
  • vllm-ascend 0.18.0rc1+

许可证

本适配代码遵循 Apache 2.0 许可证。模型本身受 LiquidAI 原许可证约束。

参考链接

  • 原始模型 (HuggingFace)
  • vLLM-Ascend
  • 昇腾 NPU 文档

适配版本: 2026-05-20