p
pipecat-ai/smart-turn-v2
模型介绍文件和版本分析
下载使用量0

Smart Turn v2

Smart Turn v2 是一款开源语义语音活动检测(VAD)模型,它通过分析原始波形而非文本,判断说话者是否已结束发言。
与 v1 版本相比,它具有以下特点:

  • 多语言支持——覆盖 14 种语言(英语、法语、德语、西班牙语、葡萄牙语、中文、日语、印地语、意大利语、韩语、荷兰语、波兰语、俄语、土耳其语)。
  • 体积缩小 6 倍——约 360 MB,而 v1 为 2.3 GB。
  • 速度提升 3 倍——在 NVIDIA L40S 上分析 8 秒音频仅需约 12 毫秒。

相关链接

  • 博客文章:Smart Turn v2
  • GitHub 仓库,包含训练和推理代码

预期用途与任务

用例模型优势说明
语音助手 / 聊天机器人等待用户真正说完后再回复。
实时转录 + 文本转语音(TTS)仅在用户发言结束时触发 TTS,避免“双人同时说话”。
呼叫中心辅助与分析为话者分离和情感分析流程提供准确的语音片段分割。
任何需要语义 VAD 的项目能够检测未完成的想法、填充词(如“嗯……”、“えーと……”)以及传统基于能量的 VAD 所忽略的语调提示。

该模型输出一个概率值;≥ 0.5 的值表示说话者已完成其 utterance。

模型架构

  • 主干网络 : wav2vec2 编码器
  • 头部网络 : 浅层线性分类器
  • 参数数量 : 94.8 M(float32)
  • 检查点 : 360 MB Safetensors(压缩后)
    在消融实验中,wav2vec2 + 线性分类器 配置的性能优于 LSTM 和更深层的 Transformer 变体。

训练数据

来源类型语言
human_5_all人类录制英语
human_convcollector_1人类录制英语
rime_2合成(Rime)英语
orpheus_midfiller_1合成(Orpheus)英语
orpheus_grammar_1合成(Orpheus)英语
orpheus_endfiller_1合成(Orpheus)英语
chirp3_1合成(Google Chirp3 TTS)14 种语言
  • 句子已使用 Gemini 2.5 Flash 进行清洗,以去除不合语法、有争议或仅书面使用的文本。
  • 使用 Claude 和 GPT-o3 构建了每种语言的填充词列表(例如“um”、“えーと”),并将其注入句子末尾,以教会模型识别中断的 speech。

所有音频/文本对均在 pipecat-ai/datasets 中心发布。

评估与性能

未见过的合成测试集准确率(50% 完整 / 50% 不完整)

语言准确率(%)语言准确率(%)
EN94.3IT94.4
FR95.5KO95.5
ES92.1PT95.5
DE95.8TR96.8
NL96.7PL94.6
RU93.0HI91.2
ZH87.2––

人类英语基准(human_5_all):99% 准确率。

8秒音频的推理延迟

设备时间
NVIDIA L40S12毫秒
NVIDIA A10019毫秒
NVIDIA T4(AWS g4dn.xlarge)75毫秒
16核 x86_64 CPU(Modal)410毫秒

oai_citation:7‡Daily

如何使用

有关使用该模型的更多信息(无论是独立使用还是与Pipecat配合使用),请参阅博客文章和GitHub仓库。