Voxtral 4B TTS 2603

Voxtral TTS 是一款前沿的开源文本转语音模型，具备快速响应、即时适配能力，能为语音助手生成逼真自然的语音。该模型发布时包含 BF16 权重和一组参考语音。这些语音采用 CC BY-NC 4.0 许可协议，模型本身亦继承此许可。

更多详情，请参阅：

核心特性

Voxtral TTS 为生产环境中的语音助手提供企业级文本转语音功能，具备以下能力：

逼真且富有表现力的语音：自然的韵律和情感范围，支持 9 种主要语言及多种方言
文本转语音生成：包含 20 种预设语音，且易于适配新语音
多语言支持：英语、法语、西班牙语、德语、意大利语、葡萄牙语、荷兰语、阿拉伯语和印地语
超低延迟：首段音频生成速度快，支持流式和批量推理
24 kHz 音频输出：支持 WAV、PCM、FLAC、MP3、AAC 和 Opus 格式
生产级性能：适用于高吞吐量、实时语音助手工作流

[!Tip] 如需语音定制，请访问我们的 AI Studio。

应用场景

客户支持与呼叫中心基础设施。
金融服务。-- 含银行 KYC 语音助手视频演示。
制造业与工业运营。
公共服务与政府。
合规与风险。
供应链与物流。
汽车与车载系统。
销售与市场营销。
实时翻译。

[!Warning] 负责任使用 - 您有责任遵守适用法律并避免滥用。

基准测试结果

使用 vllm_omni/examples/offline_inference/voxtral_tts/end2end.py 进行测量。
- 输入：500 字符文本，搭配 10 秒音频参考。
- 硬件：单块 NVIDIA H200。
- vllm 版本：v0.18.0。

注：end2end.py 中的 RTF 采用倒置公式（值越高越好）。下表已转换回标准 RTF 惯例（值越低越好）

并发数	延迟	RTF	吞吐量（字符/秒/GPU）
1	70 ms	0.103	119.14
16	331 ms	0.237	879.11
32	552 ms	0.302	1430.78

使用方法

该模型还可通过以下库进行部署：

vllm-omni（推荐）：详见此处

vLLM Omni（推荐）

[!提示] 我们与 vLLM-Omni 团队密切合作，确保 vLLM-Omni 对 Voxtral 4B TTS 2603 提供生产级支持。特别感谢 vLLM-Omni 团队的 Han Gao、Hongsheng Liu、Roger Wang 和 Yueqian Lin。

安装

确保从最新（>= 0.18.0）的 PyPI 包安装 vllm。完整安装指南详见此处。

uv pip install -U vllm

接下来，你需要安装 vllm-omni，要求 vllm-omni >= 0.18.0。

uv pip install vllm-omni --upgrade  # make sure to have >= 0.18.0

或者，您也可以使用 docker hub 上现成的 docker 镜像。

安装 vllm >= 0.18.0 时，应该会自动安装 mistral_common >= 1.10.0，您可以通过运行以下命令进行验证：

python3 -c "import mistral_common; print(mistral_common.__version__)" # should print >= 1.10.0

服务部署

由于模型大小及权重采用BF16格式，Voxtral-4B-TTS-2603 可在单块显存≥16GB的GPU上运行。

vllm serve mistralai/Voxtral-4B-TTS-2603 --omni

客户端

import io
import httpx
import soundfile as sf
 
BASE_URL = "http://<your-server-url>:8000/v1"
 
payload = {
    "input": "Paris is a beautiful city!",
    "model": "mistralai/Voxtral-4B-TTS-2603",
    "response_format": "wav",
    "voice": "casual_male",
}
 
response = httpx.post(f"{BASE_URL}/audio/speech", json=payload, timeout=120.0)
response.raise_for_status()
 
audio_array, sr = sf.read(io.BytesIO(response.content), dtype="float32")
print(f"Got audio: {len(audio_array)} samples at {sr} Hz")

# you can play the audio with a library like `sounddevice.play` for example

演示

运行方法：

git clone https://github.com/vllm-project/vllm-omni.git && \
cd vllm-omni && \
uv pip install gradio==5.50 && \
python examples/online_serving/voxtral_tts/gradio_demo.py \
  --host <your-server-url> \
  --port 8000

你也可以通过以下链接实时体验 ➡️ HF Space。

许可协议

本模型兼容的语音参考文件（例如来自 EARS、CML-TTS、IndicVoices-R 和 Arabic Natural Audio 数据集）均采用 CC BY-NC 4 许可协议。因此，本模型同样遵循该许可协议。

你不得将本模型用于侵犯、盗用或以其他方式违反任何第三方权利（包括知识产权）的行为。