Fun-ASR-Nano-2512:Fun-ASR-Nano-2512是基于PyTorch的开源语音识别模型，支持NPU环境部署。通过ModelScope下载权重，搭配Fun-ASR官方代码即可快速实现中文语音转文字，操作简单高效，助力语音识别应用开发。【此简介由AI生成】

一、介绍

Fun-ASR-Nano-2512 是由阿里通义实验室（Tongyi Lab）推出的轻量级端到端语音识别（ASR）大模型，属于 FunASR 系列的轻量部署版本，多语言增强版，支持 31 种语言，优化跨语言共享表征，于 2025 年 12 月正式开源发布。该模型专为真实应用场景设计，兼顾小体积、低延迟、易部署与高精度、强鲁棒性，支持完全本地部署，适用于边缘设备与资源受限环境。本文档介绍该模型基于昇腾底座的推理指导。

1.核心规格与架构

项目	详情
开发者	阿里通义实验室（Tongyi Lab）
参数规模	总参数量仅 0.8B（8 亿），由 0.2B 语音编码器与 0.6B LLM 解码器构成
模型大小	完整权重文件约 2.0GB，便于快速下载与部署
架构设计	端到端大模型架构，融合语音编码器与 LLM 解码器，保留完整上下文建模能力
发布时间	2025 年 12 月

二、运行环境

1. 硬件环境

硬件名称	配置信息
NPU型号	910B
测试集群	单机
操作系统	X86

2 软件版本

软件	版本
Python	3.11.13
CANN	8.3.RC1
Torch	2.8.0
Torch_npu	2.8.0
transformers	5.0.0.dev0

三、环境安装

1. 代码准备

下载Fun-ASR官方代码用于推理Fun-ASR-Nano-2512模型(https://github.com/FunAudioLLM/Fun-ASR/tree/main)

git clone https://github.com/FunAudioLLM/Fun-ASR.git

2. 环境搭建

cd Fun-ASR
pip install -r requirements.txt

四、权重下载

pip install modelscope
modelscope download --model FunAudioLLM/Fun-ASR-Nano-2512

五、推理

下载本项目下的demo_npu.py存放到Fun-ASR代码目录中

mv ../Fun-ASR-Nano-2512-SFT/demo_npu.py .

修改wav_path变量为本地要做语音识别的音频的路径

启动推理脚本，完成语音识别任务

python demo_npu.py