中文说话人验证模型,基于 ERes2Net-Large (Enhanced Res2Net) 架构,CN-Celeb 数据集训练。参数量 22.46M,识别准确率高于 Base 版本。
| 指标 | 值 |
|---|---|
| 余弦相似度 | 0.999999 |
| 平均延迟 | 10.83 ms |
| 推理精度 | float16 |
| 设备 | Ascend 910B4 |
export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH
python inference.py --device npu:0 --dtype float16模型: iic/speech_eres2net_large_sv_zh-cn_cnceleb_16k
设备: npu:0
精度: float16
------------------------------------------------------------
fbank features: shape=torch.Size([1, 370, 80])
embedding: shape=torch.Size([1, 512])
embedding (first 10): [0.06658935546875, -1.1630859375, 2.46875, 0.390625, -0.451904296875, -1.0615234375, -0.07232666015625, 2.783203125, -1.6689453125, -0.9208984375]
Cosine Similarity (embedding): 0.999999
✓ 推理完成
平均延迟: 10.83 ms| 指标 | CPU (float32) | NPU (float16) | 误差 |
|---|---|---|---|
| 余弦相似度 | 基准 | 0.999999 | < 0.001% |
| 输出维度 | [1,512] | [1,512] | 一致 |
本适配由 batch-adapter 自动完成。