MOSS-VoiceGenerator 是 OpenMOSS 团队开发的开源语音生成模型,能够从文本描述直接生成语音,无需参考音频。
| 属性 | 值 |
|---|---|
| 模型类型 | moss_tts_delay |
| 语言模型 | Qwen3 |
| 参数量 | 1.7B |
| 隐藏层大小 | 2048 |
| 词汇表大小 | 155648 |
| Transformer 层数 | 28 |
| VQ 数量 | 16 |
| 采样率 | 24000 Hz |
# 核心依赖
torch >= 2.9.0
transformers >= 5.0.0
torch_npu >= 2.9.0
torchaudio
modelscope
# Python 版本
Python >= 3.9# 安装 transformers 5.x
pip install "transformers>=5.0.0"
# 安装 modelscope
pip install modelscope
# 安装 torch_npu (昇腾驱动环境)
pip install torch_npu# 主模型
modelscope download --model openmoss/MOSS-VoiceGenerator
# Audio Tokenizer (必需)
modelscope download --model openmoss/MOSS-Audio-Tokenizer默认下载路径: ~/.cache/modelscope/hub/models/openmoss/
cd /opt/atomgit/moss-voicegenerator-npu
python inference.py| 参数 | 默认值 | 说明 |
|---|---|---|
--model-path | 内置路径 | 模型路径 |
--max-tokens | 100 | 生成的最大 token 数 |
--output-dir | output/ | 输出目录 |
生成的音频保存在 output/ 目录:
chinese_female.wav - 中文女声示例english_male.wav - 英文男声示例from modelscope import AutoModel, AutoProcessor
import torch
# 加载模型
model = AutoModel.from_pretrained(
"openmoss/MOSS-VoiceGenerator",
trust_remote_code=True,
attn_implementation="sdpa", # NPU 使用 sdpa
torch_dtype=torch.bfloat16,
).to("npu")
processor = AutoProcessor.from_pretrained(
"openmoss/MOSS-VoiceGenerator",
trust_remote_code=True,
)
# 准备输入
conversations = [[processor.build_user_message(
text="你好,世界。",
instruction="温柔的年轻女性声音。"
)]]
# 推理
batch = processor(conversations, mode="generation")
outputs = model.generate(
input_ids=batch["input_ids"].to("npu"),
attention_mask=batch["attention_mask"].to("npu"),
)
# 解码
decoded = processor.decode(outputs)
audio = decoded[0].audio_codes_list[0]| 指标 | 值 | 评估 |
|---|---|---|
| Cosine Similarity (CPU vs NPU) | 0.858 | ⚠️ 可接受 |
| Exact Match (±0.1) | 100% | ✅ 完美 |
| MSE | 0.000136 | ✅ 很低 |
| MAE | 0.004897 | ✅ 很低 |
| 设备 | 推理时间 (50 tokens) | 加速比 |
|---|---|---|
| CPU (bfloat16) | 80.69s | 1x |
| NPU (bfloat16) | 2.36s | 34.15x |
/opt/atomgit/moss-voicegenerator-npu/
├── inference.py # 推理脚本
├── npu_compat.py # NPU 兼容层
├── test_npu_modelscope.py # 完整测试脚本
├── test_precision_deterministic.py # 精度评测脚本
├── readme.md # 本文档
├── adaptation_report.md # 适配验证报告
└── output/ # 生成音频目录
├── chinese_female.wav
└── english_male.wavMODALITY_TO_BASE_CLASS_MAPPING 错误A: 需要 transformers >= 5.0.0,请升级: pip install "transformers>=5.0.0"
A: 使用 ModelScope 加载本地模型,或设置离线模式: HF_HUB_OFFLINE=1
A: 已使用 wave 格式保存,无需额外依赖。如需其他格式请安装 torchcodec
版本: v1.0 更新日期: 2026-05-19 维护团队: Model Agent (昇腾适配组)