TADA：基于文本-声学双对齐的语音建模生成框架

一个统一的语音语言模型，通过1:1对齐将语音和文本同步为单一、连贯的流。

文本-声学双对齐大型语言模型

TADA是一个统一的语音语言模型，通过1:1对齐将语音和文本同步为单一、连贯的流。借助创新的分词器和架构设计，TADA以传统模型所需计算开销的一小部分，实现了高保真度的合成与生成。

⭐️ 预印本：https://arxiv.org/abs/2602.23068
⭐️ 演示1：https://huggingface.co/spaces/fffiloni/tada-dual-alignment-tts-demo
⭐️ 演示2：https://huggingface.co/spaces/HumeAI/tada
⭐️ GitHub：https://github.com/HumeAI/tada
⭐️ 博客文章：https://www.hume.ai/blog/opensource-tada \

核心特性

1:1 令牌对齐：与标准模型不同，TADA的分词器将音频编码为向量序列，其数量与文本令牌数量完全匹配。
动态时长合成：作为TTS模型，它在单个自回归步骤中为一个文本令牌生成完整的语音片段，无论其长度如何。这消除了对固定帧率处理的需求。
双流生成：在语音语言建模模式下，它同时生成一个文本令牌和前一个令牌的语音，与纯文本生成相比，保持相同的上下文长度和最小的开销。
高效可靠：TADA在提供卓越表现力和自然流畅度的同时，显著降低了与固定音频帧率相关的计算成本。

工作原理

分词方案

TADA 通过确保每个单词或子词 token 都有唯一对应的语音向量来统一模态。这种同步流使模型能够“理解”语音相对于文本的精确时间。

动态自回归

大多数 TTS 模型生成一秒音频需要固定的步骤数（例如，每秒 50 帧）。TADA 打破了这一限制：

每个自回归步骤涵盖一个文本 token。
模型动态决定该特定 token 的时长和韵律。
这带来了更自然的流畅度，并消除了转录幻觉问题。

安装

从 github 仓库安装

pip install git+https://github.com/HumeAI/tada.git

来自源

pip install -e .

模型

我们提供了多个模型检查点：

模型	基础模型	HuggingFace Hub
TADA-1B	Llama 3.2 1B	`HumeAI/tada-1b`
TADA-3B-ml	Llama 3.2 3B	`HumeAI/tada-3b-ml`

所有模型均使用相同的编码器（HumeAI/tada-codec），并可通过相同的 API 加载。

评估

运行推理

文本转语音

import torch
import torchaudio

from tada.modules.encoder import Encoder
from tada.modules.tada import TadaForCausalLM

device = "cuda"
encoder = Encoder.from_pretrained("HumeAI/tada-codec", subfolder="encoder").to(device)
model = TadaForCausalLM.from_pretrained("HumeAI/tada-1b").to(device)

audio, sample_rate = torchaudio.load("samples/ljspeech.wav")
audio = audio.to(device)
prompt_text = "The examination and testimony of the experts, enabled the commission to conclude that five shots may have been fired."
prompt = encoder(
    audio, text=[prompt_text], sample_rate=sample_rate
)

output = model.generate(
    prompt=prompt,
    text="Please call Stella. Ask her to bring these things with her from the store.",
)

语音续写

如果您希望生成提示词的文本+语音续写内容，请提供 num_extra_steps。

output = model.generate(
    prompt=prompt,
    num_extra_steps=50
)

📚 引用说明

如果您在研究中使用本项目，请引用我们的论文：

@article{dang2026tada,
  title={TADA: A Generative Framework for Speech Modeling via Text-Acoustic Dual Alignment},
  author={Dang, Trung and Rao, Sharath and Gupta, Ananya and Gagne, Christopher and Tzirakis, Panagiotis and Baird, Alice and Cłapa, Jakub Piotr and Chin, Peter and Cowen, Alan},
  journal={arXiv preprint arXiv:2602.23068},
  year={2026}
}

联系方式

Hume AI 是一家专注于共情 AI 的研究公司。我们致力于研发为 AI 模型赋予共情能力所需的数据集、工具和模型，以服务于人类福祉。如果您对我们的产品或研究合作感兴趣，请通过 hello@hume.ai 与我们联系。

致谢

本项目基于 Llama 3.2 构建。

Llama 3.2 根据 Llama 3.2 社区许可证授权。