Ascend-SACT/Fun-ASR-Nano-2512
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

一、介绍

Fun-ASR-Nano-2512 是由阿里通义实验室(Tongyi Lab)推出的轻量级端到端语音识别(ASR)大模型,属于 FunASR 系列的轻量部署版本,多语言增强版,支持 31 种语言,优化跨语言共享表征,于 2025 年 12 月正式开源发布。该模型专为真实应用场景设计,兼顾小体积、低延迟、易部署与高精度、强鲁棒性,支持完全本地部署,适用于边缘设备与资源受限环境。本文档介绍该模型基于昇腾底座的推理指导。

1.核心规格与架构

项目详情
开发者阿里通义实验室(Tongyi Lab)
参数规模总参数量仅 0.8B(8 亿),由 0.2B 语音编码器与 0.6B LLM 解码器构成
模型大小完整权重文件约 2.0GB,便于快速下载与部署
架构设计端到端大模型架构,融合语音编码器与 LLM 解码器,保留完整上下文建模能力
发布时间2025 年 12 月

二、运行环境

1. 硬件环境

硬件名称配置信息
NPU型号910B
测试集群单机
操作系统X86

2 软件版本

软件版本
Python3.11.13
CANN8.3.RC1
Torch2.8.0
Torch_npu2.8.0
transformers5.0.0.dev0

三、环境安装

1. 代码准备

下载Fun-ASR官方代码用于推理Fun-ASR-Nano-2512模型(https://github.com/FunAudioLLM/Fun-ASR/tree/main)

git clone https://github.com/FunAudioLLM/Fun-ASR.git

2. 环境搭建

cd Fun-ASR
pip install -r requirements.txt

四、权重下载

pip install modelscope
modelscope download --model FunAudioLLM/Fun-ASR-Nano-2512

五、推理

下载本项目下的demo_npu.py存放到Fun-ASR代码目录中

mv ../Fun-ASR-Nano-2512-SFT/demo_npu.py . 

修改wav_path变量为本地要做语音识别的音频的路径

启动推理脚本,完成语音识别任务

python demo_npu.py