Cola-DLM:可用于文本生成及相关研究，是一个分层连续潜空间扩散语言模型，结合 Text VAE 与块因果 Diffusion Transformer 先验，通过 Flow Matching 实现潜变量先验传输。【此简介由AI生成】 - AtomGit AI社区

Cola DLM

English · 中文

Cola DLM（Continuous Latent Diffusion Language Model，连续 latent 扩散语言模型）是一种分层连续 latent 空间扩散语言模型。它将文本变分自编码器（Text VAE）与块因果扩散Transformer（DiT）先验相结合：VAE 将文本映射为连续 latent 序列并将 latent 解码回 tokens，而 DiT 通过流匹配（Flow Matching）执行 latent 先验传输。

本模型仓库包含论文 Continuous Latent Diffusion Language Model 的 HuggingFace 格式 checkpoint。

链接

模型仓库：https://huggingface.co/ByteDance-Seed/Cola-DLM
GitHub 仓库：https://github.com/ByteDance-Seed/Cola-DLM
论文：https://arxiv.org/abs/2605.06548
HuggingFace 每日论文：https://huggingface.co/papers/2605.06548
项目页面：https://hongcanguo.github.io/Cola-DLM/
博客文章：https://hongcanguo.github.io/posts/2026-cola-dlm.html
知乎文章：https://zhuanlan.zhihu.com/p/2038324180920313704

模型文件

预期的仓库布局如下：

.
├── cola_dlm/
│   ├── cola_dit/
│   │   ├── config.json
│   │   └── model.safetensors*
│   └── cola_vae/
│       ├── config.json
│       └── model.safetensors*
├── tokenizer.json
├── README.md
└── README_zh.md

该检查点包含两个协同工作的模块：

ColaDiTModel：基于连续文本潜变量的块因果一维扩散 Transformer 先验模型。
ColaTextVAEModel：文本 VAE 编码器和条件解码器，用于文本到潜变量以及潜变量到文本的映射。

快速开始

从 GitHub 仓库安装 Cola DLM 代码包，然后安装下载助手：

git clone https://github.com/ByteDance-Seed/Cola-DLM.git
cd Cola-DLM
pip install -e .
pip install huggingface_hub

下载模型文件：

huggingface-cli download ByteDance-Seed/Cola-DLM --local-dir hf_models

运行一个简单的 Python 示例：

import torch
from tokenizers import Tokenizer

from cola_dlm import (
    ColaDiTModel,
    ColaTextVAEModel,
    generate_task_repaint_inference,
)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

dit = ColaDiTModel.from_pretrained("hf_models/cola_dlm/cola_dit").to(device)
vae = ColaTextVAEModel.from_pretrained("hf_models/cola_dlm/cola_vae").to(device)
tokenizer = Tokenizer.from_file("hf_models/tokenizer.json")

prompts = [{"question": "Question: What is the capital of France? Answer:"}]
results = generate_task_repaint_inference(
    dit=dit,
    vae=vae,
    tokenizer=tokenizer,
    prompts=prompts,
    task_name="lambada",
    device=device,
    max_new_tokens=32,
    temperature=0.0,
    guidance_scale=7.0,
    timestep_num=16,
    pad_token_id=100277,
)

print(results[0]["generate"])

OpenAI 兼容服务

Cola-DLM 代码发布中的配套 openai_adapter/ 服务通过一个与 OpenAI 兼容的聊天补全端点来开放此模型：

POST /v1/chat/completions

从代码仓库根目录安装适配器依赖：

pip install -e .
pip install -r openai_adapter/requirements.txt

启动服务：

export COLA_DIT_PATH=hf_models/cola_dlm/cola_dit
export COLA_VAE_PATH=hf_models/cola_dlm/cola_vae
export COLA_TOKENIZER_PATH=hf_models/tokenizer.json
export COLA_MODEL_NAME=cola-dlm
export COLA_API_KEY=change-me

uvicorn openai_adapter.server:app --host 0.0.0.0 --port 8000

然后发送请求：

curl http://127.0.0.1:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer change-me" \
  -d '{
    "model": "cola-dlm",
    "messages": [
      {
        "role": "user",
        "content": "Question: What is the capital of France? Answer:"
      }
    ],
    "temperature": 0,
    "max_tokens": 32,
    "stream": false
  }'

当前适配器支持非流式补全。

模型详情

架构：文本VAE + 块因果DiT潜在先验。
训练目标：两阶段训练，先进行文本VAE预训练，然后使用流匹配（Flow Matching）对文本VAE和DiT进行联合训练。
训练计算检查点：发布的权重对应于论文RQ4缩放曲线中报告的2000 EFLOPs检查点。
分词器：OLMo 2分词器，词汇量为100,278。
特殊令牌ID：pad_token_id=100277，eos_token_id=100257，im_end_token_id=100265。
框架：PyTorch 2.1+ 和 HuggingFace Transformers 4.40+。
许可证：Apache License 2.0。

评估

开源推理实现的零样本基准测试结果参考：

任务	准确率（%）
LAMBADA	50.80
MMLU	19.30
OBQA	23.00
HellaSwag	10.70
RACE	19.60
SIQA	28.90
SQuAD	30.90
Story Cloze	30.77
任务平均值	26.75

开源的HuggingFace Transformers实现可能与论文中使用的内部实现略有不同，因此每个任务的数值可能会有轻微波动。总体趋势与论文一致。

预期用途

Cola DLM 主要用于层级潜变量语言模型、文本的连续潜扩散、流匹配先验以及基准式文本生成的研究。

此检查点未经过指令微调，也未经过RLHF（基于人类反馈的强化学习）。不应将其视为生产环境中的聊天机器人，也不应用于安全关键型决策。

局限性

该模型主要在英文文本上训练；其他语言的评估尚不充分。
输出可能包含事实错误、冒犯性内容、偏见或幻觉。
生成质量可能对提示格式和提示长度敏感。建议使用问答式提示（如"Question: ... Answer:"）进行快速评估。
模型在生成过程中使用可变的KV缓存；除非显式隔离缓存处理，否则服务实现应在单个进程内序列化生成过程。

安全声明与使用限制

Cola DLM 是一个面向连续潜变量扩散语言建模研究的模型 checkpoint。所发布的模型规模相对较小，尚未经过指令微调、RLHF 对齐或系统性安全对齐。因此，它无法提供可靠的拒绝行为、内容审核或风险检测功能。其输出内容可能包含不准确、冒犯性、有偏见、非法、不适当或误导性的信息。

本模型仅用于学术研究和技术实验。我们不鼓励、支持或授权使用 Cola DLM 生成、分发或协助生成以下类型的内容：

色情、性露骨、剥削性或其他不当内容；
与赌博相关的内容，包括赌博推广、投注建议或非法赌博服务；
与非法药物或受管制物质相关的内容，包括制造、购买、销售、使用或规避监管的说明；
仇恨、骚扰、歧视、暴力威胁、极端主义或煽动性内容；
政治操纵、定向政治说服、政治虚假信息、煽动国际或群体间冲突，或可能加剧社会、国家或地缘政治紧张局势的敏感政治内容；
非法活动、规避监管、网络滥用、侵犯隐私或其他可能造成现实世界伤害的内容；
在医疗、法律、金融、安全关键或安全敏感等高风险领域的自动化建议或决策。

下载、部署、微调、再分发本模型或基于本模型构建应用程序的用户，有责任实施适当的安全和合规措施。此类措施可能包括但不限于：输入和输出内容审核、访问控制、日志记录与审计、人工审查、红队测试，以及根据适用法律法规进行合规检查。

Cola DLM 不应被视为生产就绪的聊天机器人或安全可靠的通用助手。本模型生成的任何内容均不代表作者、附属机构或贡献者的观点、立场或认可。

引用说明

如果您在研究工作中使用了 Cola DLM，请引用：

@article{guo2026cola,
  title   = {Continuous Latent Diffusion Language Model},
  author  = {Guo, Hongcan and Zhao, Qinyu and Zhao, Yian and Nie, Shen and
             Zhu, Rui and Guo, Qiushan and Wang, Feng and Yang, Tao and
             Zhao, Hengshuang and Wei, Guoqiang and Zeng, Yan},
  journal = {arXiv preprint arXiv:2605.06548},
  year    = {2026},
  url     = {https://arxiv.org/abs/2605.06548},
}