Covo-Audio 是一个拥有70亿参数的端到端大型音频语言模型,它在单一统一架构中直接处理连续音频输入并生成音频输出,相关内容已发表于论文 Covo-Audio Technical Report。本仓库中我们发布了 Covo-Audio-Chat。
层级三模态语音-文本交织:我们提出了一个旨在实现跨模态和跨尺度深度对齐与融合的框架。三模态方面将连续声学特征、离散语音令牌和自然语言文本整合到统一序列中,有效弥合了高保真韵律细节与稳健语义结构之间的差距。
缓解智能-说话人耦合:我们提出了智能-说话人解耦技术,通过多说话人训练将说话人与对话智能解耦,进而开发了上下文自适应方法来迁移和共享高质量TTS语音。
原生全双工语音交互:我们将 Covo-Audio 进一步发展为 Covo-Audio-Chat-FD,这是一个具备原生、低延迟全双工能力的变体。
全面的最先进性能:在包括口语对话、语音理解、音频理解和全双工语音交互等广泛任务中,在同等规模模型中实现了最先进或具有竞争力的性能。
推荐使用 Python >= 3.11
conda create -n covoaudio python=3.11
conda activate covoaudio
pip install -r requirements.txtgit clone https://github.com/Tencent/Covo-Audio.git
cd Covo-Audio使用 HuggingFace:
pip install huggingface-hub
hf download tencent/Covo-Audio-Chat --local-dir ./covoaudio通过运行上述脚本,您可以使用从 Hugging Face 下载的模型覆盖本仓库中同名的目录。或者,您也可以通过修改 local-dir 参数来指定自己的模型存储目录(在这种情况下,您需要在运行推理脚本前,相应地编辑 example.sh 中的 model_dir 和 decode_load_path 参数)。
完成配置和模型下载后,您可以通过运行以下脚本来执行一键推理:
bash example.sh要与我们的模型进行交互,只需将example.py中的路径替换为您自己的音频文件即可。
本项目的部分代码基于以下开源项目:
Covo-Audio的大语言模型主干和音频编码器分别使用以下项目的权重进行初始化:
如果您觉得本模型对您的研究有帮助,请引用我们的论文:
@misc{wang2026covoaudiotechnicalreport,
title={Covo-Audio Technical Report},
author={Wenfu Wang and Chenxing Li and Liqiang Zhang and Yiyang Zhao and Yuxiang Zou and Hanzhao Li and Mingyu Cui and Hao Zhang and Kun Wei and Le Xu and Zikang Huang and Jiajun Xu and Jiliang Hu and Xiang He and Zeyu Xie and Jiawen Kang and Youjun Chen and Meng Yu and Dong Yu and Rilin Chen and Linlin Di and Shulin Feng and Na Hu and Yang Liu and Bang Wang and Shan Yang},
year={2026},
eprint={2602.09823},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2602.09823},
}我们的模型和代码基于 LICENSE 进行许可。
如果您有任何问题或建议,欢迎联系我们:
Covo-Audio-Chat 仅用于研究和实验目的。它偶尔可能会生成不准确、不适当、有偏见、过时或与事实不符的内容。用户应独立验证关键信息,并对其使用该模型的行为及其产生的任何后果承担全部责任。