Cola DLM(Continuous Latent Diffusion Language Model,连续 latent 扩散语言模型)是一种分层连续 latent 空间扩散语言模型。它将文本变分自编码器(Text VAE)与块因果扩散Transformer(DiT)先验相结合:VAE 将文本映射为连续 latent 序列并将 latent 解码回 tokens,而 DiT 通过流匹配(Flow Matching)执行 latent 先验传输。
本模型仓库包含论文 Continuous Latent Diffusion Language Model 的 HuggingFace 格式 checkpoint。
预期的仓库布局如下:
.
├── cola_dlm/
│ ├── cola_dit/
│ │ ├── config.json
│ │ └── model.safetensors*
│ └── cola_vae/
│ ├── config.json
│ └── model.safetensors*
├── tokenizer.json
├── README.md
└── README_zh.md该检查点包含两个协同工作的模块:
ColaDiTModel:基于连续文本潜变量的块因果一维扩散 Transformer 先验模型。ColaTextVAEModel:文本 VAE 编码器和条件解码器,用于文本到潜变量以及潜变量到文本的映射。从 GitHub 仓库 安装 Cola DLM 代码包,然后安装下载助手:
git clone https://github.com/ByteDance-Seed/Cola-DLM.git
cd Cola-DLM
pip install -e .
pip install huggingface_hub下载模型文件:
huggingface-cli download ByteDance-Seed/Cola-DLM --local-dir hf_models运行一个简单的 Python 示例:
import torch
from tokenizers import Tokenizer
from cola_dlm import (
ColaDiTModel,
ColaTextVAEModel,
generate_task_repaint_inference,
)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
dit = ColaDiTModel.from_pretrained("hf_models/cola_dlm/cola_dit").to(device)
vae = ColaTextVAEModel.from_pretrained("hf_models/cola_dlm/cola_vae").to(device)
tokenizer = Tokenizer.from_file("hf_models/tokenizer.json")
prompts = [{"question": "Question: What is the capital of France? Answer:"}]
results = generate_task_repaint_inference(
dit=dit,
vae=vae,
tokenizer=tokenizer,
prompts=prompts,
task_name="lambada",
device=device,
max_new_tokens=32,
temperature=0.0,
guidance_scale=7.0,
timestep_num=16,
pad_token_id=100277,
)
print(results[0]["generate"])Cola-DLM 代码发布中的配套 openai_adapter/ 服务通过一个与 OpenAI 兼容的聊天补全端点来开放此模型:
POST /v1/chat/completions从代码仓库根目录安装适配器依赖:
pip install -e .
pip install -r openai_adapter/requirements.txt启动服务:
export COLA_DIT_PATH=hf_models/cola_dlm/cola_dit
export COLA_VAE_PATH=hf_models/cola_dlm/cola_vae
export COLA_TOKENIZER_PATH=hf_models/tokenizer.json
export COLA_MODEL_NAME=cola-dlm
export COLA_API_KEY=change-me
uvicorn openai_adapter.server:app --host 0.0.0.0 --port 8000然后发送请求:
curl http://127.0.0.1:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer change-me" \
-d '{
"model": "cola-dlm",
"messages": [
{
"role": "user",
"content": "Question: What is the capital of France? Answer:"
}
],
"temperature": 0,
"max_tokens": 32,
"stream": false
}'当前适配器支持非流式补全。
pad_token_id=100277,eos_token_id=100257,im_end_token_id=100265。开源推理实现的零样本基准测试结果参考:
| 任务 | 准确率(%) |
|---|---|
| LAMBADA | 50.80 |
| MMLU | 19.30 |
| OBQA | 23.00 |
| HellaSwag | 10.70 |
| RACE | 19.60 |
| SIQA | 28.90 |
| SQuAD | 30.90 |
| Story Cloze | 30.77 |
| 任务平均值 | 26.75 |
开源的HuggingFace Transformers实现可能与论文中使用的内部实现略有不同,因此每个任务的数值可能会有轻微波动。总体趋势与论文一致。
Cola DLM 主要用于层级潜变量语言模型、文本的连续潜扩散、流匹配先验以及基准式文本生成的研究。
此检查点未经过指令微调,也未经过RLHF(基于人类反馈的强化学习)。不应将其视为生产环境中的聊天机器人,也不应用于安全关键型决策。
"Question: ... Answer:")进行快速评估。Cola DLM 是一个面向连续潜变量扩散语言建模研究的模型 checkpoint。所发布的模型规模相对较小,尚未经过指令微调、RLHF 对齐或系统性安全对齐。因此,它无法提供可靠的拒绝行为、内容审核或风险检测功能。其输出内容可能包含不准确、冒犯性、有偏见、非法、不适当或误导性的信息。
本模型仅用于学术研究和技术实验。我们不鼓励、支持或授权使用 Cola DLM 生成、分发或协助生成以下类型的内容:
下载、部署、微调、再分发本模型或基于本模型构建应用程序的用户,有责任实施适当的安全和合规措施。此类措施可能包括但不限于:输入和输出内容审核、访问控制、日志记录与审计、人工审查、红队测试,以及根据适用法律法规进行合规检查。
Cola DLM 不应被视为生产就绪的聊天机器人或安全可靠的通用助手。本模型生成的任何内容均不代表作者、附属机构或贡献者的观点、立场或认可。
如果您在研究工作中使用了 Cola DLM,请引用:
@article{guo2026cola,
title = {Continuous Latent Diffusion Language Model},
author = {Guo, Hongcan and Zhao, Qinyu and Zhao, Yian and Nie, Shen and
Zhu, Rui and Guo, Qiushan and Wang, Feng and Yang, Tao and
Zhao, Hengshuang and Wei, Guoqiang and Zeng, Yan},
journal = {arXiv preprint arXiv:2605.06548},
year = {2026},
url = {https://arxiv.org/abs/2605.06548},
}