d
dingdang666/tada-1b-NPU
模型介绍文件和版本Pull Requests讨论分析

tada-1b 在昇腾 NPU 上的部署

1. 简介

本文档记录 tada-1b(TADA TTS 模型)在昇腾 NPU(Ascend 910B3)环境的适配部署与精度验证结果。

TADA-1B 基于 LlamaForCausalLM 架构,参数量约 1.24B,支持文本到语音合成。本项目完成该模型在昇腾 NPU 上的推理适配,验证 NPU 与 CPU 结果的精度误差 < 1%。

相关获取地址:

  • 权重下载地址(HuggingFace):https://huggingface.co/tada-lm/tada-1b
  • 适配代码仓库:https://gitcode.com/dingdang666/tada-1b-NPU

2. 验证环境

组件版本
Python3.11.x
PyTorch2.10.0+cpu
torch_npu2.10.0
transformers5.8.1
CANN8.5.1
NPU 硬件Ascend 910B3

3. 模型信息

项目值
模型架构LlamaForCausalLM + TTS decoders
参数量~1.24B
权重格式safetensors
框架PyTorch (transformers)

4. Conda 环境安装

conda create -n tada-1b python=3.11 -y
conda activate tada-1b
pip install torch==2.10.0 torchvision==0.25.0 --index-url https://repo.huaweicloud.com/repository/pypi/simple/
pip install torch_npu==2.10.0 --index-url https://repo.huaweicloud.com/repository/pypi/simple/
pip install transformers safetensors --index-url https://repo.huaweicloud.com/repository/pypi/simple/

5. 推理执行

python3 inference.py --model_path /path/to/tada-1b
python3 inference.py ... --device cpu
python3 benchmark.py --model_path /path/to/tada-1b

6. 精度评测结果

类别指标实测值阈值状态
Overall向量级相对误差0.000688%< 1%PASS ✅
余弦相似度1.000000> 0.99PASS ✅
SNR (dB)102.45——
Abs Error最大值 / 平均值 / P95 / P992.6e-4 / 1.1e-5 / 4.2e-5 / 1.1e-4——
Elem Rel %最大值 / 平均值 / P95626.93 / 0.002 / 0.003——
Per-Pos最大值 / 平均值1.2e-4 / 1.1e-5——

7. 性能数据

操作耗时
CPU(FP32)3.80s
NPU(FP32,3轮预热)0.20s
加速比18.70x

8. 注意事项

  1. 使用 AutoModelForCausalLM 加载 Llama 主干网络。
  2. 模型包含额外 TTS decoder 模块,仅比较主干 logits。
  3. 输入为随机 token 序列(seq=64)。
下载使用量0