from inference import build_model, transcribe
model = build_model("/path/to/model")
result = transcribe(model, "audio.wav")
print(result.get("text", ""))
# 含说话人信息
for seg in result.get("sentence_info", []):
print(f"[{seg['spk']}] {seg['text']}")
4. 精度与性能
4.1 测试音频
样本
语言
时长
asr_example.wav
Chinese
5.58s
4.2 精度结果(NPU vs CPU)
指标
结果
字符级一致性
100.00%
CPU 输出
欢迎大家来体验达摩院推出的语音识别模型。
NPU 输出
欢迎大家来体验达摩院推出的语音识别模型。
4.3 性能 Benchmark
设备
首次运行
稳态平均
CPU 对比
加速比
CPU (16线程)
—
4.121s
1.00x
—
NPU (Ascend910B4)
1.945s
1.936s
—
2.13x
VAD/Punc/SPK 模型运行在 CPU,仅 ASR 主模型移至 NPU。当前测试音频为单人短语音,说话人日志增量开销有限。
5. 注意事项
VAD、标点、说话人模型运行在 CPU(基于音频/文本特征设计,轻量级)
ASR 主模型移至 NPU 加速
CAM++ Speaker 模型在多人对话场景下提供说话人分割功能
子模型首次运行会自动从 ModelScope 下载缓存
NPU 适配策略:CPU 构建所有模型 → ASR 移至 NPU → patch ASR inference 注入 device 参数