说话人验证模型,基于 ECAPA-TDNN 架构(1024 通道),可对两段音频进行说话人相似度判断。
| 指标 | 值 |
|---|---|
| 余弦相似度 | 1.000000 |
| 平均延迟 | 17.26 ms |
| 参数量 | ~14M |
| 推理精度 | float32 |
| 设备 | Ascend 910B4 |
| 组件 | 版本 |
|---|---|
| CANN | 8.5.1 |
| torch_npu | 2.9.0.post1 |
| PyTorch | 2.9.0 |
| Python | 3.11 |
export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH
python inference.py --device npu:0 --dtype float32NPU 推理输出(float32):
模型: iic/speech_ecapa-tdnn_sv_en_voxceleb_16k
设备: npu:0
精度: float32
------------------------------------------------------------
fbank features: shape=torch.Size([1, 778, 80])
embedding: shape=torch.Size([1, 192])
embedding (first 10): [0.2558, 0.1489, -0.5268, -0.0182, 0.3210, 0.0287, 0.6171, -0.1130, 0.4537, 0.4547]
Cosine Similarity (embedding): 1.000000
✓ 推理完成
平均延迟: 17.26 ms| 指标 | CPU (float32) | NPU (float32) | 误差 |
|---|---|---|---|
| 余弦相似度 | 基准 | 1.000000 | 0 |
| 输出维度 | [1,192] | [1,192] | 一致 |
本适配由 batch-adapter 自动完成。