g
gcw_coj3XaOd/MOSS-VoiceGenerator
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

MOSS-VoiceGenerator 昇腾 NPU 部署文档

1. 模型简介

MOSS-VoiceGenerator 是 OpenMOSS 团队开发的开源语音生成模型,能够从文本描述直接生成语音,无需参考音频。

主要特性

  • 零样本声音设计:仅通过文本描述即可生成指定音色的语音
  • 高表现力:支持丰富的情感和风格控制
  • 多语言支持:中文、英文高质量合成

模型规格

属性值
模型类型moss_tts_delay
语言模型Qwen3
参数量1.7B
隐藏层大小2048
词汇表大小155648
Transformer 层数28
VQ 数量16
采样率24000 Hz

2. 环境要求

硬件

  • 昇腾 NPU (Atlas 800 A2/A3) 或 CPU

软件依赖

# 核心依赖
torch >= 2.9.0
transformers >= 5.0.0
torch_npu >= 2.9.0
torchaudio
modelscope

# Python 版本
Python >= 3.9

安装命令

# 安装 transformers 5.x
pip install "transformers>=5.0.0"

# 安装 modelscope
pip install modelscope

# 安装 torch_npu (昇腾驱动环境)
pip install torch_npu

3. 模型下载

从 ModelScope 下载

# 主模型
modelscope download --model openmoss/MOSS-VoiceGenerator

# Audio Tokenizer (必需)
modelscope download --model openmoss/MOSS-Audio-Tokenizer

默认下载路径: ~/.cache/modelscope/hub/models/openmoss/


4. 快速开始

推理脚本

cd /opt/atomgit/moss-voicegenerator-npu
python inference.py

参数说明

参数默认值说明
--model-path内置路径模型路径
--max-tokens100生成的最大 token 数
--output-diroutput/输出目录

输出

生成的音频保存在 output/ 目录:

  • chinese_female.wav - 中文女声示例
  • english_male.wav - 英文男声示例

5. 代码示例

from modelscope import AutoModel, AutoProcessor
import torch

# 加载模型
model = AutoModel.from_pretrained(
    "openmoss/MOSS-VoiceGenerator",
    trust_remote_code=True,
    attn_implementation="sdpa",  # NPU 使用 sdpa
    torch_dtype=torch.bfloat16,
).to("npu")

processor = AutoProcessor.from_pretrained(
    "openmoss/MOSS-VoiceGenerator",
    trust_remote_code=True,
)

# 准备输入
conversations = [[processor.build_user_message(
    text="你好,世界。",
    instruction="温柔的年轻女性声音。"
)]]

# 推理
batch = processor(conversations, mode="generation")
outputs = model.generate(
    input_ids=batch["input_ids"].to("npu"),
    attention_mask=batch["attention_mask"].to("npu"),
)

# 解码
decoded = processor.decode(outputs)
audio = decoded[0].audio_codes_list[0]

6. 精度与性能

精度评测结果

指标值评估
Cosine Similarity (CPU vs NPU)0.858⚠️ 可接受
Exact Match (±0.1)100%✅ 完美
MSE0.000136✅ 很低
MAE0.004897✅ 很低

性能对比

设备推理时间 (50 tokens)加速比
CPU (bfloat16)80.69s1x
NPU (bfloat16)2.36s34.15x

7. 目录结构

/opt/atomgit/moss-voicegenerator-npu/
├── inference.py                    # 推理脚本
├── npu_compat.py                   # NPU 兼容层
├── test_npu_modelscope.py          # 完整测试脚本
├── test_precision_deterministic.py # 精度评测脚本
├── readme.md                       # 本文档
├── adaptation_report.md           # 适配验证报告
└── output/                         # 生成音频目录
    ├── chinese_female.wav
    └── english_male.wav

8. 常见问题

Q1: 提示 MODALITY_TO_BASE_CLASS_MAPPING 错误

A: 需要 transformers >= 5.0.0,请升级: pip install "transformers>=5.0.0"

Q2: 提示无法连接 HuggingFace

A: 使用 ModelScope 加载本地模型,或设置离线模式: HF_HUB_OFFLINE=1

Q3: 音频保存失败

A: 已使用 wave 格式保存,无需额外依赖。如需其他格式请安装 torchcodec


9. 参考链接

  • ModelScope: https://modelscope.cn/models/openmoss/MOSS-VoiceGenerator
  • GitHub: https://github.com/OpenMOSS/MOSS-TTS
  • 官方文档: https://studio.mosi.cn/docs/moss-tts

版本: v1.0 更新日期: 2026-05-19 维护团队: Model Agent (昇腾适配组)