MOSS-VoiceGenerator 昇腾 NPU 部署文档

1. 模型简介

MOSS-VoiceGenerator 是 OpenMOSS 团队开发的开源语音生成模型，能够从文本描述直接生成语音，无需参考音频。

主要特性

零样本声音设计：仅通过文本描述即可生成指定音色的语音
高表现力：支持丰富的情感和风格控制
多语言支持：中文、英文高质量合成

模型规格

属性	值
模型类型	moss_tts_delay
语言模型	Qwen3
参数量	1.7B
隐藏层大小	2048
词汇表大小	155648
Transformer 层数	28
VQ 数量	16
采样率	24000 Hz

2. 环境要求

硬件

昇腾 NPU (Atlas 800 A2/A3) 或 CPU

软件依赖

# 核心依赖
torch >= 2.9.0
transformers >= 5.0.0
torch_npu >= 2.9.0
torchaudio
modelscope

# Python 版本
Python >= 3.9

安装命令

# 安装 transformers 5.x
pip install "transformers>=5.0.0"

# 安装 modelscope
pip install modelscope

# 安装 torch_npu (昇腾驱动环境)
pip install torch_npu

3. 模型下载

从 ModelScope 下载

# 主模型
modelscope download --model openmoss/MOSS-VoiceGenerator

# Audio Tokenizer (必需)
modelscope download --model openmoss/MOSS-Audio-Tokenizer

默认下载路径: ~/.cache/modelscope/hub/models/openmoss/

4. 快速开始

推理脚本

cd /opt/atomgit/moss-voicegenerator-npu
python inference.py

参数说明

参数	默认值	说明
`--model-path`	内置路径	模型路径
`--max-tokens`	100	生成的最大 token 数
`--output-dir`	output/	输出目录

输出

生成的音频保存在 output/ 目录:

chinese_female.wav - 中文女声示例
english_male.wav - 英文男声示例

5. 代码示例

from modelscope import AutoModel, AutoProcessor
import torch

# 加载模型
model = AutoModel.from_pretrained(
    "openmoss/MOSS-VoiceGenerator",
    trust_remote_code=True,
    attn_implementation="sdpa",  # NPU 使用 sdpa
    torch_dtype=torch.bfloat16,
).to("npu")

processor = AutoProcessor.from_pretrained(
    "openmoss/MOSS-VoiceGenerator",
    trust_remote_code=True,
)

# 准备输入
conversations = [[processor.build_user_message(
    text="你好，世界。",
    instruction="温柔的年轻女性声音。"
)]]

# 推理
batch = processor(conversations, mode="generation")
outputs = model.generate(
    input_ids=batch["input_ids"].to("npu"),
    attention_mask=batch["attention_mask"].to("npu"),
)

# 解码
decoded = processor.decode(outputs)
audio = decoded[0].audio_codes_list[0]

6. 精度与性能

精度评测结果

指标	值	评估
Cosine Similarity (CPU vs NPU)	0.858	⚠️ 可接受
Exact Match (±0.1)	100%	✅ 完美
MSE	0.000136	✅ 很低
MAE	0.004897	✅ 很低

性能对比

设备	推理时间 (50 tokens)	加速比
CPU (bfloat16)	80.69s	1x
NPU (bfloat16)	2.36s	34.15x

7. 目录结构

/opt/atomgit/moss-voicegenerator-npu/
├── inference.py                    # 推理脚本
├── npu_compat.py                   # NPU 兼容层
├── test_npu_modelscope.py          # 完整测试脚本
├── test_precision_deterministic.py # 精度评测脚本
├── readme.md                       # 本文档
├── adaptation_report.md           # 适配验证报告
└── output/                         # 生成音频目录
    ├── chinese_female.wav
    └── english_male.wav

8. 常见问题

Q1: 提示 `MODALITY_TO_BASE_CLASS_MAPPING` 错误

A: 需要 transformers >= 5.0.0，请升级: pip install "transformers>=5.0.0"

Q2: 提示无法连接 HuggingFace

A: 使用 ModelScope 加载本地模型，或设置离线模式: HF_HUB_OFFLINE=1

Q3: 音频保存失败

A: 已使用 wave 格式保存，无需额外依赖。如需其他格式请安装 torchcodec

9. 参考链接

ModelScope: https://modelscope.cn/models/openmoss/MOSS-VoiceGenerator
GitHub: https://github.com/OpenMOSS/MOSS-TTS
官方文档: https://studio.mosi.cn/docs/moss-tts

版本: v1.0 更新日期: 2026-05-19 维护团队: Model Agent (昇腾适配组)

MOSS-VoiceGenerator 昇腾 NPU 部署文档

1. 模型简介

MOSS-VoiceGenerator 是 OpenMOSS 团队开发的开源语音生成模型，能够从文本描述直接生成语音，无需参考音频。

主要特性

零样本声音设计：仅通过文本描述即可生成指定音色的语音
高表现力：支持丰富的情感和风格控制
多语言支持：中文、英文高质量合成

模型规格

属性	值
模型类型	moss_tts_delay
语言模型	Qwen3
参数量	1.7B
隐藏层大小	2048
词汇表大小	155648
Transformer 层数	28
VQ 数量	16
采样率	24000 Hz

2. 环境要求

硬件

昇腾 NPU (Atlas 800 A2/A3) 或 CPU

软件依赖

# 核心依赖
torch >= 2.9.0
transformers >= 5.0.0
torch_npu >= 2.9.0
torchaudio
modelscope

# Python 版本
Python >= 3.9

安装命令

# 安装 transformers 5.x
pip install "transformers>=5.0.0"

# 安装 modelscope
pip install modelscope

# 安装 torch_npu (昇腾驱动环境)
pip install torch_npu

3. 模型下载

从 ModelScope 下载

# 主模型
modelscope download --model openmoss/MOSS-VoiceGenerator

# Audio Tokenizer (必需)
modelscope download --model openmoss/MOSS-Audio-Tokenizer

默认下载路径: ~/.cache/modelscope/hub/models/openmoss/

4. 快速开始

推理脚本

cd /opt/atomgit/moss-voicegenerator-npu
python inference.py

参数说明

参数	默认值	说明
`--model-path`	内置路径	模型路径
`--max-tokens`	100	生成的最大 token 数
`--output-dir`	output/	输出目录

输出

生成的音频保存在 output/ 目录:

chinese_female.wav - 中文女声示例
english_male.wav - 英文男声示例

5. 代码示例

from modelscope import AutoModel, AutoProcessor
import torch

# 加载模型
model = AutoModel.from_pretrained(
    "openmoss/MOSS-VoiceGenerator",
    trust_remote_code=True,
    attn_implementation="sdpa",  # NPU 使用 sdpa
    torch_dtype=torch.bfloat16,
).to("npu")

processor = AutoProcessor.from_pretrained(
    "openmoss/MOSS-VoiceGenerator",
    trust_remote_code=True,
)

# 准备输入
conversations = [[processor.build_user_message(
    text="你好，世界。",
    instruction="温柔的年轻女性声音。"
)]]

# 推理
batch = processor(conversations, mode="generation")
outputs = model.generate(
    input_ids=batch["input_ids"].to("npu"),
    attention_mask=batch["attention_mask"].to("npu"),
)

# 解码
decoded = processor.decode(outputs)
audio = decoded[0].audio_codes_list[0]

6. 精度与性能

精度评测结果

指标	值	评估
Cosine Similarity (CPU vs NPU)	0.858	⚠️ 可接受
Exact Match (±0.1)	100%	✅ 完美
MSE	0.000136	✅ 很低
MAE	0.004897	✅ 很低

性能对比

设备	推理时间 (50 tokens)	加速比
CPU (bfloat16)	80.69s	1x
NPU (bfloat16)	2.36s	34.15x

7. 目录结构

/opt/atomgit/moss-voicegenerator-npu/
├── inference.py                    # 推理脚本
├── npu_compat.py                   # NPU 兼容层
├── test_npu_modelscope.py          # 完整测试脚本
├── test_precision_deterministic.py # 精度评测脚本
├── readme.md                       # 本文档
├── adaptation_report.md           # 适配验证报告
└── output/                         # 生成音频目录
    ├── chinese_female.wav
    └── english_male.wav

8. 常见问题

Q1: 提示 `MODALITY_TO_BASE_CLASS_MAPPING` 错误

A: 需要 transformers >= 5.0.0，请升级: pip install "transformers>=5.0.0"

Q2: 提示无法连接 HuggingFace

A: 使用 ModelScope 加载本地模型，或设置离线模式: HF_HUB_OFFLINE=1

Q3: 音频保存失败

A: 已使用 wave 格式保存，无需额外依赖。如需其他格式请安装 torchcodec

9. 参考链接

ModelScope: https://modelscope.cn/models/openmoss/MOSS-VoiceGenerator
GitHub: https://github.com/OpenMOSS/MOSS-TTS
官方文档: https://studio.mosi.cn/docs/moss-tts

版本: v1.0 更新日期: 2026-05-19 维护团队: Model Agent (昇腾适配组)

MOSS-VoiceGenerator 昇腾 NPU 部署文档

1. 模型简介

主要特性

模型规格

2. 环境要求

硬件

软件依赖

安装命令

3. 模型下载

从 ModelScope 下载

4. 快速开始

推理脚本

参数说明

输出

5. 代码示例

6. 精度与性能

精度评测结果

性能对比

7. 目录结构

8. 常见问题

Q1: 提示 MODALITY_TO_BASE_CLASS_MAPPING 错误

Q2: 提示无法连接 HuggingFace

Q3: 音频保存失败

9. 参考链接

MOSS-VoiceGenerator 昇腾 NPU 部署文档

1. 模型简介

主要特性

模型规格

2. 环境要求

硬件

软件依赖

安装命令

3. 模型下载

从 ModelScope 下载

4. 快速开始

推理脚本

参数说明

输出

5. 代码示例

6. 精度与性能

精度评测结果

性能对比

7. 目录结构

8. 常见问题

Q1: 提示 MODALITY_TO_BASE_CLASS_MAPPING 错误

Q2: 提示无法连接 HuggingFace

Q3: 音频保存失败

9. 参考链接

Q1: 提示 `MODALITY_TO_BASE_CLASS_MAPPING` 错误

Q1: 提示 `MODALITY_TO_BASE_CLASS_MAPPING` 错误