Fun-ASR-Nano-2512 是由阿里通义实验室(Tongyi Lab)推出的轻量级端到端语音识别(ASR)大模型,属于 FunASR 系列的轻量部署版本,多语言增强版,支持 31 种语言,优化跨语言共享表征,于 2025 年 12 月正式开源发布。该模型专为真实应用场景设计,兼顾小体积、低延迟、易部署与高精度、强鲁棒性,支持完全本地部署,适用于边缘设备与资源受限环境。本文档介绍该模型基于昇腾底座的推理指导。
| 项目 | 详情 |
|---|---|
| 开发者 | 阿里通义实验室(Tongyi Lab) |
| 参数规模 | 总参数量仅 0.8B(8 亿),由 0.2B 语音编码器与 0.6B LLM 解码器构成 |
| 模型大小 | 完整权重文件约 2.0GB,便于快速下载与部署 |
| 架构设计 | 端到端大模型架构,融合语音编码器与 LLM 解码器,保留完整上下文建模能力 |
| 发布时间 | 2025 年 12 月 |
| 硬件名称 | 配置信息 |
|---|---|
| NPU型号 | 910B |
| 测试集群 | 单机 |
| 操作系统 | X86 |
| 软件 | 版本 |
|---|---|
| Python | 3.11.13 |
| CANN | 8.3.RC1 |
| Torch | 2.8.0 |
| Torch_npu | 2.8.0 |
| transformers | 5.0.0.dev0 |
下载Fun-ASR官方代码用于推理Fun-ASR-Nano-2512模型(https://github.com/FunAudioLLM/Fun-ASR/tree/main)
git clone https://github.com/FunAudioLLM/Fun-ASR.gitcd Fun-ASR
pip install -r requirements.txtpip install modelscope
modelscope download --model FunAudioLLM/Fun-ASR-Nano-2512下载本项目下的demo_npu.py存放到Fun-ASR代码目录中
mv ../Fun-ASR-Nano-2512-SFT/demo_npu.py . 修改wav_path变量为本地要做语音识别的音频的路径
启动推理脚本,完成语音识别任务
python demo_npu.py