HuggingFace镜像/Silero-VAD-v5-MLX
模型介绍文件和版本分析
下载使用量0

Silero VAD v5 — MLX

与 MLX 兼容的 Silero VAD v5 权重,由官方 JIT 模型转换而来。

模型

Silero VAD v5 是一款轻量级(约 309K 参数)语音活动检测模型,可处理 512 样本块(16kHz 时为 32ms),延迟低于 1 毫秒。它为每个块输出 0 到 1 之间的语音概率,并跨块携带 LSTM 状态以实现流式操作。

架构: STFT → 4×Conv1d+ReLU 编码器 → LSTM(128) → Conv1d 解码器 → sigmoid

用法(Swift / MLX)

import SpeechVAD

// Load model
let vad = try await SileroVADModel.fromPretrained()

// Streaming: process 512-sample chunks
let prob = vad.processChunk(samples)  // → 0.0...1.0

// Batch: detect speech segments in complete audio
let segments = vad.detectSpeech(audio: samples, sampleRate: 16000)
for seg in segments {
    print("Speech: \(seg.startTime)s - \(seg.endTime)s")
}

speech-swift 的一部分。

转换

python3 scripts/convert_silero_vad.py --upload

通过 torch.hub 转换官方 Silero VAD v5 JIT 模型,为 MLX 通道最后格式转置 Conv1d 权重,累加 LSTM 偏置(bias_ih + bias_hh),并保存为 safetensors 格式。

权重映射

JIT 键MLX 键形状
_model.stft.forward_basis_bufferstft.weight[258, 256, 1]
_model.encoder.{i}.reparam_conv.weightencoder.{i}.weight可变
_model.encoder.{i}.reparam_conv.biasencoder.{i}.bias可变
_model.decoder.rnn.weight_ihlstm.Wx[512, 128]
_model.decoder.rnn.weight_hhlstm.Wh[512, 128]
_model.decoder.rnn.bias_ih + bias_hhlstm.bias[512]
_model.decoder.decoder.2.weightdecoder.weight[1, 1, 128]
_model.decoder.decoder.2.biasdecoder.bias[1]

许可证

原始 Silero VAD 模型基于 MIT 许可证 发布。



  • 指南:soniqo.audio/guides/vad
  • 文档:soniqo.audio
  • GitHub:soniqo/speech-swift