Silero VAD v5 — MLX

与 MLX 兼容的 Silero VAD v5 权重，由官方 JIT 模型转换而来。

模型

Silero VAD v5 是一款轻量级（约 309K 参数）语音活动检测模型，可处理 512 样本块（16kHz 时为 32ms），延迟低于 1 毫秒。它为每个块输出 0 到 1 之间的语音概率，并跨块携带 LSTM 状态以实现流式操作。

架构： STFT → 4×Conv1d+ReLU 编码器 → LSTM(128) → Conv1d 解码器 → sigmoid

用法（Swift / MLX）

import SpeechVAD

// Load model
let vad = try await SileroVADModel.fromPretrained()

// Streaming: process 512-sample chunks
let prob = vad.processChunk(samples)  // → 0.0...1.0

// Batch: detect speech segments in complete audio
let segments = vad.detectSpeech(audio: samples, sampleRate: 16000)
for seg in segments {
    print("Speech: \(seg.startTime)s - \(seg.endTime)s")
}

speech-swift 的一部分。

转换

python3 scripts/convert_silero_vad.py --upload

通过 torch.hub 转换官方 Silero VAD v5 JIT 模型，为 MLX 通道最后格式转置 Conv1d 权重，累加 LSTM 偏置（bias_ih + bias_hh），并保存为 safetensors 格式。

权重映射

JIT 键	MLX 键	形状
`_model.stft.forward_basis_buffer`	`stft.weight`	[258, 256, 1]
`_model.encoder.{i}.reparam_conv.weight`	`encoder.{i}.weight`	可变
`_model.encoder.{i}.reparam_conv.bias`	`encoder.{i}.bias`	可变
`_model.decoder.rnn.weight_ih`	`lstm.Wx`	[512, 128]
`_model.decoder.rnn.weight_hh`	`lstm.Wh`	[512, 128]
`_model.decoder.rnn.bias_ih + bias_hh`	`lstm.bias`	[512]
`_model.decoder.decoder.2.weight`	`decoder.weight`	[1, 1, 128]
`_model.decoder.decoder.2.bias`	`decoder.bias`	[1]

许可证

原始 Silero VAD 模型基于 MIT 许可证发布。