Smart Turn v2 是一款开源语义语音活动检测(VAD)模型,它通过分析原始波形而非文本,判断说话者是否已结束发言。
与 v1 版本相比,它具有以下特点:
| 用例 | 模型优势说明 |
|---|---|
| 语音助手 / 聊天机器人 | 等待用户真正说完后再回复。 |
| 实时转录 + 文本转语音(TTS) | 仅在用户发言结束时触发 TTS,避免“双人同时说话”。 |
| 呼叫中心辅助与分析 | 为话者分离和情感分析流程提供准确的语音片段分割。 |
| 任何需要语义 VAD 的项目 | 能够检测未完成的想法、填充词(如“嗯……”、“えーと……”)以及传统基于能量的 VAD 所忽略的语调提示。 |
该模型输出一个概率值;≥ 0.5 的值表示说话者已完成其 utterance。
wav2vec2 编码器wav2vec2 + 线性分类器 配置的性能优于 LSTM 和更深层的 Transformer 变体。| 来源 | 类型 | 语言 |
|---|---|---|
human_5_all | 人类录制 | 英语 |
human_convcollector_1 | 人类录制 | 英语 |
rime_2 | 合成(Rime) | 英语 |
orpheus_midfiller_1 | 合成(Orpheus) | 英语 |
orpheus_grammar_1 | 合成(Orpheus) | 英语 |
orpheus_endfiller_1 | 合成(Orpheus) | 英语 |
chirp3_1 | 合成(Google Chirp3 TTS) | 14 种语言 |
所有音频/文本对均在 pipecat-ai/datasets 中心发布。
| 语言 | 准确率(%) | 语言 | 准确率(%) |
|---|---|---|---|
| EN | 94.3 | IT | 94.4 |
| FR | 95.5 | KO | 95.5 |
| ES | 92.1 | PT | 95.5 |
| DE | 95.8 | TR | 96.8 |
| NL | 96.7 | PL | 94.6 |
| RU | 93.0 | HI | 91.2 |
| ZH | 87.2 | – | – |
人类英语基准(human_5_all):99% 准确率。
| 设备 | 时间 |
|---|---|
| NVIDIA L40S | 12毫秒 |
| NVIDIA A100 | 19毫秒 |
| NVIDIA T4(AWS g4dn.xlarge) | 75毫秒 |
| 16核 x86_64 CPU(Modal) | 410毫秒 |
有关使用该模型的更多信息(无论是独立使用还是与Pipecat配合使用),请参阅博客文章和GitHub仓库。