Voxtral TTS 是一款前沿的开源文本转语音模型,具备快速响应、即时适配能力,能为语音助手生成逼真自然的语音。该模型发布时包含 BF16 权重和一组参考语音。这些语音采用 CC BY-NC 4.0 许可协议,模型本身亦继承此许可。
更多详情,请参阅:
Voxtral TTS 为生产环境中的语音助手提供企业级文本转语音功能,具备以下能力:
[!Tip] 如需语音定制,请访问我们的 AI Studio。
[!Warning] 负责任使用 - 您有责任遵守适用法律并避免滥用。
注:end2end.py 中的 RTF 采用倒置公式(值越高越好)。下表已转换回标准 RTF 惯例(值越低越好)
| 并发数 | 延迟 | RTF | 吞吐量(字符/秒/GPU) |
|---|---|---|---|
| 1 | 70 ms | 0.103 | 119.14 |
| 16 | 331 ms | 0.237 | 879.11 |
| 32 | 552 ms | 0.302 | 1430.78 |
该模型还可通过以下库进行部署:
[!提示] 我们与 vLLM-Omni 团队密切合作,确保 vLLM-Omni 对 Voxtral 4B TTS 2603 提供生产级支持。 特别感谢 vLLM-Omni 团队的 Han Gao、Hongsheng Liu、Roger Wang 和 Yueqian Lin。
安装
确保从最新(>= 0.18.0)的 PyPI 包安装 vllm。 完整安装指南详见此处。
uv pip install -U vllm接下来,你需要安装 vllm-omni,要求 vllm-omni >= 0.18.0。
uv pip install vllm-omni --upgrade # make sure to have >= 0.18.0或者,您也可以使用 docker hub 上现成的 docker 镜像。
安装 vllm >= 0.18.0 时,应该会自动安装 mistral_common >= 1.10.0,您可以通过运行以下命令进行验证:
python3 -c "import mistral_common; print(mistral_common.__version__)" # should print >= 1.10.0由于模型大小及权重采用BF16格式,Voxtral-4B-TTS-2603 可在单块显存≥16GB的GPU上运行。
vllm serve mistralai/Voxtral-4B-TTS-2603 --omniimport io
import httpx
import soundfile as sf
BASE_URL = "http://<your-server-url>:8000/v1"
payload = {
"input": "Paris is a beautiful city!",
"model": "mistralai/Voxtral-4B-TTS-2603",
"response_format": "wav",
"voice": "casual_male",
}
response = httpx.post(f"{BASE_URL}/audio/speech", json=payload, timeout=120.0)
response.raise_for_status()
audio_array, sr = sf.read(io.BytesIO(response.content), dtype="float32")
print(f"Got audio: {len(audio_array)} samples at {sr} Hz")
# you can play the audio with a library like `sounddevice.play` for example运行方法:
git clone https://github.com/vllm-project/vllm-omni.git && \
cd vllm-omni && \
uv pip install gradio==5.50 && \
python examples/online_serving/voxtral_tts/gradio_demo.py \
--host <your-server-url> \
--port 8000你也可以通过以下链接实时体验 ➡️ HF Space。
本模型兼容的语音参考文件(例如来自 EARS、CML-TTS、IndicVoices-R 和 Arabic Natural Audio 数据集)均采用 CC BY-NC 4 许可协议。因此,本模型同样遵循该许可协议。
你不得将本模型用于侵犯、盗用或以其他方式违反任何第三方权利(包括知识产权)的行为。