Smart Turn v2

Smart Turn v2 是一款开源语义语音活动检测（VAD）模型，它通过分析原始波形而非文本，判断说话者是否已结束发言。
与 v1 版本相比，它具有以下特点：

多语言支持——覆盖 14 种语言（英语、法语、德语、西班牙语、葡萄牙语、中文、日语、印地语、意大利语、韩语、荷兰语、波兰语、俄语、土耳其语）。
体积缩小 6 倍——约 360 MB，而 v1 为 2.3 GB。
速度提升 3 倍——在 NVIDIA L40S 上分析 8 秒音频仅需约 12 毫秒。

预期用途与任务

用例	模型优势说明
语音助手 / 聊天机器人	等待用户真正说完后再回复。
实时转录 + 文本转语音（TTS）	仅在用户发言结束时触发 TTS，避免“双人同时说话”。
呼叫中心辅助与分析	为话者分离和情感分析流程提供准确的语音片段分割。
任何需要语义 VAD 的项目	能够检测未完成的想法、填充词（如“嗯……”、“えーと……”）以及传统基于能量的 VAD 所忽略的语调提示。

该模型输出一个概率值；≥ 0.5 的值表示说话者已完成其 utterance。

模型架构

主干网络 : wav2vec2 编码器
头部网络 : 浅层线性分类器
参数数量 : 94.8 M（float32）
检查点 : 360 MB Safetensors（压缩后）
在消融实验中，wav2vec2 + 线性分类器 配置的性能优于 LSTM 和更深层的 Transformer 变体。

训练数据

来源	类型	语言
`human_5_all`	人类录制	英语
`human_convcollector_1`	人类录制	英语
`rime_2`	合成（Rime）	英语
`orpheus_midfiller_1`	合成（Orpheus）	英语
`orpheus_grammar_1`	合成（Orpheus）	英语
`orpheus_endfiller_1`	合成（Orpheus）	英语
`chirp3_1`	合成（Google Chirp3 TTS）	14 种语言

句子已使用 Gemini 2.5 Flash 进行清洗，以去除不合语法、有争议或仅书面使用的文本。
使用 Claude 和 GPT-o3 构建了每种语言的填充词列表（例如“um”、“えーと”），并将其注入句子末尾，以教会模型识别中断的 speech。

所有音频/文本对均在 pipecat-ai/datasets 中心发布。

评估与性能

未见过的合成测试集准确率（50% 完整 / 50% 不完整）

语言	准确率（%）	语言	准确率（%）
EN	94.3	IT	94.4
FR	95.5	KO	95.5
ES	92.1	PT	95.5
DE	95.8	TR	96.8
NL	96.7	PL	94.6
RU	93.0	HI	91.2
ZH	87.2	–	–

人类英语基准（human_5_all）：99% 准确率。

8秒音频的推理延迟

设备	时间
NVIDIA L40S	12毫秒
NVIDIA A100	19毫秒
NVIDIA T4（AWS g4dn.xlarge）	75毫秒
16核 x86_64 CPU（Modal）	410毫秒

oai_citation:7‡Daily

如何使用

有关使用该模型的更多信息（无论是独立使用还是与Pipecat配合使用），请参阅博客文章和GitHub仓库。

Smart Turn v2

多语言支持——覆盖 14 种语言（英语、法语、德语、西班牙语、葡萄牙语、中文、日语、印地语、意大利语、韩语、荷兰语、波兰语、俄语、土耳其语）。
体积缩小 6 倍——约 360 MB，而 v1 为 2.3 GB。
速度提升 3 倍——在 NVIDIA L40S 上分析 8 秒音频仅需约 12 毫秒。

预期用途与任务

用例	模型优势说明
语音助手 / 聊天机器人	等待用户真正说完后再回复。
实时转录 + 文本转语音（TTS）	仅在用户发言结束时触发 TTS，避免“双人同时说话”。
呼叫中心辅助与分析	为话者分离和情感分析流程提供准确的语音片段分割。
任何需要语义 VAD 的项目	能够检测未完成的想法、填充词（如“嗯……”、“えーと……”）以及传统基于能量的 VAD 所忽略的语调提示。

该模型输出一个概率值；≥ 0.5 的值表示说话者已完成其 utterance。

模型架构

主干网络 : wav2vec2 编码器
头部网络 : 浅层线性分类器
参数数量 : 94.8 M（float32）
检查点 : 360 MB Safetensors（压缩后）
在消融实验中，wav2vec2 + 线性分类器 配置的性能优于 LSTM 和更深层的 Transformer 变体。

训练数据

来源	类型	语言
`human_5_all`	人类录制	英语
`human_convcollector_1`	人类录制	英语
`rime_2`	合成（Rime）	英语
`orpheus_midfiller_1`	合成（Orpheus）	英语
`orpheus_grammar_1`	合成（Orpheus）	英语
`orpheus_endfiller_1`	合成（Orpheus）	英语
`chirp3_1`	合成（Google Chirp3 TTS）	14 种语言

句子已使用 Gemini 2.5 Flash 进行清洗，以去除不合语法、有争议或仅书面使用的文本。
使用 Claude 和 GPT-o3 构建了每种语言的填充词列表（例如“um”、“えーと”），并将其注入句子末尾，以教会模型识别中断的 speech。

所有音频/文本对均在 pipecat-ai/datasets 中心发布。

评估与性能

未见过的合成测试集准确率（50% 完整 / 50% 不完整）

语言	准确率（%）	语言	准确率（%）
EN	94.3	IT	94.4
FR	95.5	KO	95.5
ES	92.1	PT	95.5
DE	95.8	TR	96.8
NL	96.7	PL	94.6
RU	93.0	HI	91.2
ZH	87.2	–	–

人类英语基准（human_5_all）：99% 准确率。

8秒音频的推理延迟

设备	时间
NVIDIA L40S	12毫秒
NVIDIA A100	19毫秒
NVIDIA T4（AWS g4dn.xlarge）	75毫秒
16核 x86_64 CPU（Modal）	410毫秒

oai_citation:7‡Daily

如何使用

有关使用该模型的更多信息（无论是独立使用还是与Pipecat配合使用），请参阅博客文章和GitHub仓库。

Smart Turn v2

相关链接

预期用途与任务

模型架构

训练数据

评估与性能

未见过的合成测试集准确率（50% 完整 / 50% 不完整）

8秒音频的推理延迟

如何使用

Smart Turn v2

相关链接

预期用途与任务

模型架构

训练数据

评估与性能

未见过的合成测试集准确率（50% 完整 / 50% 不完整）

8秒音频的推理延迟

如何使用