与 MLX 兼容的 Silero VAD v5 权重,由官方 JIT 模型转换而来。
Silero VAD v5 是一款轻量级(约 309K 参数)语音活动检测模型,可处理 512 样本块(16kHz 时为 32ms),延迟低于 1 毫秒。它为每个块输出 0 到 1 之间的语音概率,并跨块携带 LSTM 状态以实现流式操作。
架构: STFT → 4×Conv1d+ReLU 编码器 → LSTM(128) → Conv1d 解码器 → sigmoid
import SpeechVAD
// Load model
let vad = try await SileroVADModel.fromPretrained()
// Streaming: process 512-sample chunks
let prob = vad.processChunk(samples) // → 0.0...1.0
// Batch: detect speech segments in complete audio
let segments = vad.detectSpeech(audio: samples, sampleRate: 16000)
for seg in segments {
print("Speech: \(seg.startTime)s - \(seg.endTime)s")
}speech-swift 的一部分。
python3 scripts/convert_silero_vad.py --upload通过 torch.hub 转换官方 Silero VAD v5 JIT 模型,为 MLX 通道最后格式转置 Conv1d 权重,累加 LSTM 偏置(bias_ih + bias_hh),并保存为 safetensors 格式。
| JIT 键 | MLX 键 | 形状 |
|---|---|---|
_model.stft.forward_basis_buffer | stft.weight | [258, 256, 1] |
_model.encoder.{i}.reparam_conv.weight | encoder.{i}.weight | 可变 |
_model.encoder.{i}.reparam_conv.bias | encoder.{i}.bias | 可变 |
_model.decoder.rnn.weight_ih | lstm.Wx | [512, 128] |
_model.decoder.rnn.weight_hh | lstm.Wh | [512, 128] |
_model.decoder.rnn.bias_ih + bias_hh | lstm.bias | [512] |
_model.decoder.decoder.2.weight | decoder.weight | [1, 1, 128] |
_model.decoder.decoder.2.bias | decoder.bias | [1] |
原始 Silero VAD 模型基于 MIT 许可证 发布。