HuggingFace镜像/Voxtral-4B-TTS-2603
模型介绍文件和版本分析
下载使用量0

Voxtral 4B TTS 2603

Voxtral TTS 是一款前沿的开源文本转语音模型,具备快速响应、即时适配能力,能为语音助手生成逼真自然的语音。该模型发布时包含 BF16 权重和一组参考语音。这些语音采用 CC BY-NC 4.0 许可协议,模型本身亦继承此许可。

更多详情,请参阅:

  • 🔊 演示
  • ✍️ 博客文章
  • 🔬 研究论文

核心特性

Voxtral TTS 为生产环境中的语音助手提供企业级文本转语音功能,具备以下能力:

  • 逼真且富有表现力的语音:自然的韵律和情感范围,支持 9 种主要语言及多种方言
  • 文本转语音生成:包含 20 种预设语音,且易于适配新语音
  • 多语言支持:英语、法语、西班牙语、德语、意大利语、葡萄牙语、荷兰语、阿拉伯语和印地语
  • 超低延迟:首段音频生成速度快,支持流式和批量推理
  • 24 kHz 音频输出:支持 WAV、PCM、FLAC、MP3、AAC 和 Opus 格式
  • 生产级性能:适用于高吞吐量、实时语音助手工作流

[!Tip] 如需语音定制,请访问我们的 AI Studio。

应用场景

  • 客户支持与呼叫中心基础设施。
  • 金融服务。-- 含银行 KYC 语音助手视频演示。
  • 制造业与工业运营。
  • 公共服务与政府。
  • 合规与风险。
  • 供应链与物流。
  • 汽车与车载系统。
  • 销售与市场营销。
  • 实时翻译。

[!Warning] 负责任使用 - 您有责任遵守适用法律并避免滥用。

基准测试结果

  • 使用 vllm_omni/examples/offline_inference/voxtral_tts/end2end.py 进行测量。
    • 输入:500 字符文本,搭配 10 秒音频参考。
    • 硬件:单块 NVIDIA H200。
    • vllm 版本:v0.18.0。

注:end2end.py 中的 RTF 采用倒置公式(值越高越好)。下表已转换回标准 RTF 惯例(值越低越好)

并发数延迟RTF吞吐量(字符/秒/GPU)
170 ms0.103119.14
16331 ms0.237879.11
32552 ms0.3021430.78

使用方法

该模型还可通过以下库进行部署:

  • vllm-omni(推荐):详见此处

vLLM Omni(推荐)

[!提示] 我们与 vLLM-Omni 团队密切合作,确保 vLLM-Omni 对 Voxtral 4B TTS 2603 提供生产级支持。 特别感谢 vLLM-Omni 团队的 Han Gao、Hongsheng Liu、Roger Wang 和 Yueqian Lin。

安装

确保从最新(>= 0.18.0)的 PyPI 包安装 vllm。 完整安装指南详见此处。

uv pip install -U vllm

接下来,你需要安装 vllm-omni,要求 vllm-omni >= 0.18.0。

uv pip install vllm-omni --upgrade  # make sure to have >= 0.18.0

或者,您也可以使用 docker hub 上现成的 docker 镜像。

安装 vllm >= 0.18.0 时,应该会自动安装 mistral_common >= 1.10.0,您可以通过运行以下命令进行验证:

python3 -c "import mistral_common; print(mistral_common.__version__)" # should print >= 1.10.0

服务部署

由于模型大小及权重采用BF16格式,Voxtral-4B-TTS-2603 可在单块显存≥16GB的GPU上运行。

vllm serve mistralai/Voxtral-4B-TTS-2603 --omni

客户端

import io
import httpx
import soundfile as sf
 
BASE_URL = "http://<your-server-url>:8000/v1"
 
payload = {
    "input": "Paris is a beautiful city!",
    "model": "mistralai/Voxtral-4B-TTS-2603",
    "response_format": "wav",
    "voice": "casual_male",
}
 
response = httpx.post(f"{BASE_URL}/audio/speech", json=payload, timeout=120.0)
response.raise_for_status()
 
audio_array, sr = sf.read(io.BytesIO(response.content), dtype="float32")
print(f"Got audio: {len(audio_array)} samples at {sr} Hz")

# you can play the audio with a library like `sounddevice.play` for example

演示

运行方法:

git clone https://github.com/vllm-project/vllm-omni.git && \
cd vllm-omni && \
uv pip install gradio==5.50 && \
python examples/online_serving/voxtral_tts/gradio_demo.py \
  --host <your-server-url> \
  --port 8000

你也可以通过以下链接实时体验 ➡️ HF Space。

许可协议

本模型兼容的语音参考文件(例如来自 EARS、CML-TTS、IndicVoices-R 和 Arabic Natural Audio 数据集)均采用 CC BY-NC 4 许可协议。因此,本模型同样遵循该许可协议。

你不得将本模型用于侵犯、盗用或以其他方式违反任何第三方权利(包括知识产权)的行为。