TADA-3B-ML 是一个基于 Llama 3.2 3B 的多语言语音生成模型,通过 Text-Acoustic Dual Alignment 实现语音和文本的 1:1 对齐。本项目提供其在华为 Ascend NPU 环境下的部署方案。
| 项目 | 版本/内容 |
|---|---|
| 设备 | Ascend 910B |
tada-3b-ml-ascend/
├── inference.py # 精度测试脚本
├── test.log # 测试日志
├── README.md # 本文档
└── final-graphics-polished/ # 评估图表source /usr/local/Ascend/ascend-toolkit/set_env.sh模型文件应放在 tada-3b-ml/ 目录下:
cd tada-3b-ml-ascend/
python3 inference.py --precision_testcd tada-3b-ml-ascend/
python3 inference.py| 指标 | 实测值 | 阈值 | 状态 |
|---|---|---|---|
| Max Error (sum) | 1.34e-04 | < 1e-3 | PASS |
| Max Error (mean) | 7.45e-09 | < 1e-5 | PASS |
| Max Error (std) | 1.86e-09 | < 1e-5 | PASS |
| 操作 | 耗时 |
|---|---|
| 模型加载 | ~42s |
| CPU 参考计算 (20 tensors) | 1.18s |
| NPU 推理 (20 tensors) | 0.59s |
| 完整推理 (1, 32 tokens) | ~0.41s |
完整测试日志保存在 test.log
TADA-3B-ML 基于 Llama 3.2 3B 架构:
| 组件 | 参数 | 说明 |
|---|---|---|
| embed_tokens | 128256 x 3072 | 词嵌入层 |
| layers (28层) | 每层 LlamaDecoderLayer | Transformer层 |
| norm | RMSNorm(3072) | 最终归一化 |
| lm_head | 3072 x 128256 | 语料库投影 |
| 指标 | TADA-1B | TADA-3B-ML |
|---|---|---|
| 参数 | 2.16B | ~3B |
| hidden_size | 2048 | 3072 |
| num_layers | 16 | 28 |
| num_heads | 32 | 24 |
| head_dim | 64 | 128 |
A: 检查 NPU 驱动是否正确安装,确保 CANN 环境变量已 source。
A: 3B 模型推理时间约 0.4s/32 tokens,属于正常范围。
A: 大型 embedding 层在 BF16/F32 转换时有累积误差,已在精度测试中排除。
本项目遵循 Llama 3.2 Community License。