一个统一的语音语言模型,通过1:1对齐将语音和文本同步为单一、连贯的流。
TADA是一个统一的语音语言模型,通过1:1对齐将语音和文本同步为单一、连贯的流。借助创新的分词器和架构设计,TADA以传统模型所需计算开销的一小部分,实现了高保真度的合成与生成。
⭐️ 预印本:https://arxiv.org/abs/2602.23068
⭐️ 演示1:https://huggingface.co/spaces/fffiloni/tada-dual-alignment-tts-demo
⭐️ 演示2:https://huggingface.co/spaces/HumeAI/tada
⭐️ GitHub:https://github.com/HumeAI/tada
⭐️ 博客文章:https://www.hume.ai/blog/opensource-tada \
TADA 通过确保每个单词或子词 token 都有唯一对应的语音向量来统一模态。这种同步流使模型能够“理解”语音相对于文本的精确时间。
大多数 TTS 模型生成一秒音频需要固定的步骤数(例如,每秒 50 帧)。TADA 打破了这一限制:
从 github 仓库安装
pip install git+https://github.com/HumeAI/tada.git来自源
pip install -e .我们提供了多个模型检查点:
| 模型 | 基础模型 | HuggingFace Hub |
|---|---|---|
| TADA-1B | Llama 3.2 1B | HumeAI/tada-1b |
| TADA-3B-ml | Llama 3.2 3B | HumeAI/tada-3b-ml |
所有模型均使用相同的编码器(HumeAI/tada-codec),并可通过相同的 API 加载。
![]() | ![]() |
![]() | ![]() |
import torch
import torchaudio
from tada.modules.encoder import Encoder
from tada.modules.tada import TadaForCausalLM
device = "cuda"
encoder = Encoder.from_pretrained("HumeAI/tada-codec", subfolder="encoder").to(device)
model = TadaForCausalLM.from_pretrained("HumeAI/tada-1b").to(device)
audio, sample_rate = torchaudio.load("samples/ljspeech.wav")
audio = audio.to(device)
prompt_text = "The examination and testimony of the experts, enabled the commission to conclude that five shots may have been fired."
prompt = encoder(
audio, text=[prompt_text], sample_rate=sample_rate
)
output = model.generate(
prompt=prompt,
text="Please call Stella. Ask her to bring these things with her from the store.",
)如果您希望生成提示词的文本+语音续写内容,请提供 num_extra_steps。
output = model.generate(
prompt=prompt,
num_extra_steps=50
)如果您在研究中使用本项目,请引用我们的论文:
@article{dang2026tada,
title={TADA: A Generative Framework for Speech Modeling via Text-Acoustic Dual Alignment},
author={Dang, Trung and Rao, Sharath and Gupta, Ananya and Gagne, Christopher and Tzirakis, Panagiotis and Baird, Alice and Cłapa, Jakub Piotr and Chin, Peter and Cowen, Alan},
journal={arXiv preprint arXiv:2602.23068},
year={2026}
}Hume AI 是一家专注于共情 AI 的研究公司。我们致力于研发为 AI 模型赋予共情能力所需的数据集、工具和模型,以服务于人类福祉。如果您对我们的产品或研究合作感兴趣,请通过 hello@hume.ai 与我们联系。
本项目基于 Llama 3.2 构建。
Llama 3.2 根据 Llama 3.2 社区许可证授权。