HuggingFace镜像/tada-1b
模型介绍文件和版本分析
下载使用量0

TADA:基于文本-声学双对齐的语音建模生成框架

论文 演示 演示 资源库 PyPI 博客文章

image


一个统一的语音语言模型,通过1:1对齐将语音和文本同步为单一、连贯的流。


文本-声学双对齐大型语言模型

TADA是一个统一的语音语言模型,通过1:1对齐将语音和文本同步为单一、连贯的流。借助创新的分词器和架构设计,TADA以传统模型所需计算开销的一小部分,实现了高保真度的合成与生成。

⭐️ 预印本:https://arxiv.org/abs/2602.23068
⭐️ 演示1:https://huggingface.co/spaces/fffiloni/tada-dual-alignment-tts-demo
⭐️ 演示2:https://huggingface.co/spaces/HumeAI/tada
⭐️ GitHub:https://github.com/HumeAI/tada
⭐️ 博客文章:https://www.hume.ai/blog/opensource-tada \

核心特性

  • 1:1 令牌对齐:与标准模型不同,TADA的分词器将音频编码为向量序列,其数量与文本令牌数量完全匹配。
  • 动态时长合成:作为TTS模型,它在单个自回归步骤中为一个文本令牌生成完整的语音片段,无论其长度如何。这消除了对固定帧率处理的需求。
  • 双流生成:在语音语言建模模式下,它同时生成一个文本令牌和前一个令牌的语音,与纯文本生成相比,保持相同的上下文长度和最小的开销。
  • 高效可靠:TADA在提供卓越表现力和自然流畅度的同时,显著降低了与固定音频帧率相关的计算成本。

工作原理

分词方案

TADA 通过确保每个单词或子词 token 都有唯一对应的语音向量来统一模态。这种同步流使模型能够“理解”语音相对于文本的精确时间。

动态自回归

大多数 TTS 模型生成一秒音频需要固定的步骤数(例如,每秒 50 帧)。TADA 打破了这一限制:

  • 每个自回归步骤涵盖一个文本 token。
  • 模型动态决定该特定 token 的时长和韵律。
  • 这带来了更自然的流畅度,并消除了转录幻觉问题。

安装

从 github 仓库安装

pip install git+https://github.com/HumeAI/tada.git

来自源

pip install -e .

模型

我们提供了多个模型检查点:

模型基础模型HuggingFace Hub
TADA-1BLlama 3.2 1BHumeAI/tada-1b
TADA-3B-mlLlama 3.2 3BHumeAI/tada-3b-ml

所有模型均使用相同的编码器(HumeAI/tada-codec),并可通过相同的 API 加载。

评估

CERSpeed
Speaker SimilarityMOS

运行推理

文本转语音

import torch
import torchaudio

from tada.modules.encoder import Encoder
from tada.modules.tada import TadaForCausalLM

device = "cuda"
encoder = Encoder.from_pretrained("HumeAI/tada-codec", subfolder="encoder").to(device)
model = TadaForCausalLM.from_pretrained("HumeAI/tada-1b").to(device)

audio, sample_rate = torchaudio.load("samples/ljspeech.wav")
audio = audio.to(device)
prompt_text = "The examination and testimony of the experts, enabled the commission to conclude that five shots may have been fired."
prompt = encoder(
    audio, text=[prompt_text], sample_rate=sample_rate
)

output = model.generate(
    prompt=prompt,
    text="Please call Stella. Ask her to bring these things with her from the store.",
)

语音续写

如果您希望生成提示词的文本+语音续写内容,请提供 num_extra_steps。

output = model.generate(
    prompt=prompt,
    num_extra_steps=50
)

📚 引用说明

如果您在研究中使用本项目,请引用我们的论文:

@article{dang2026tada,
  title={TADA: A Generative Framework for Speech Modeling via Text-Acoustic Dual Alignment},
  author={Dang, Trung and Rao, Sharath and Gupta, Ananya and Gagne, Christopher and Tzirakis, Panagiotis and Baird, Alice and Cłapa, Jakub Piotr and Chin, Peter and Cowen, Alan},
  journal={arXiv preprint arXiv:2602.23068},
  year={2026}
}

联系方式

Hume AI 是一家专注于共情 AI 的研究公司。我们致力于研发为 AI 模型赋予共情能力所需的数据集、工具和模型,以服务于人类福祉。如果您对我们的产品或研究合作感兴趣,请通过 hello@hume.ai 与我们联系。

致谢

本项目基于 Llama 3.2 构建。

Llama 3.2 根据 Llama 3.2 社区许可证授权。