SenseNova-U1: 通过 NEO-unify 架构实现多模态理解与生成的统一

SenseNova-U1

visualization

📣 更新动态

[2026.05.15] 发布 SenseNova-U1-8B-MoT-Infographic 📊，用于提升信息图表生成效果。详情请参见 U1 信息图表模型，并可在 ✨ 信息图表展示中查看 100 个生成示例。
[2026.05.10] 发布 🔥SenseNova-U1 技术报告🔥 以及 SenseNova-U1-A3B-MoT-SFT 和 SenseNova-U1-A3B-MoT 的权重。
[2026.05.08] 新增 GGUF 量化检查点 和 分层卸载显存模式，支持低显存单 GPU 推理。详见内存高效推理。SenseNova-U1-8B-MoT-Merger 的 GGUF 权重可在 🤗 smthem/SenseNova-U1-8B-MoT-Merger-gguf 获取——特别感谢 @smthem 贡献量化权重。
[2026.05.06] 发布 SenseNova-U1-8B-MoT-LoRA-8step-V1.0。使用示例脚本请参见示例脚本。
[2026.04.30] 发布 8 步推理模型预览版 SenseNova-U1-8B-MoT-8step-preview。在多数情况下，该模型的图像生成质量与基础模型接近（详见对比及现存问题）。测试此模型可使用推理脚本，并添加以下参数：--cfg_scale 1.0 --num_steps 8 。
[2026.04.27] 首次发布 SenseNova-U1-8B-MoT-SFT 和 SenseNova-U1-8B-MoT 的权重。
[2026.04.27] 首次发布 SenseNova-U1 的推理代码。

🌟 概述

🚀 SenseNova U1 是全新的原生多模态模型系列，通过单一架构实现了多模态理解、推理与生成的统一。它标志着多模态人工智能领域的根本性范式转变：从模态集成迈向真正的模态统一。与依赖适配器进行模态间转换的传统方式不同，SenseNova U1 模型能够以原生方式处理语言和视觉信息，实现思考与行动的一体化。

在端到端架构中从像素到文字统一视觉理解与生成，开启了巨大的可能性，以原生多模态方式实现高效且强大的理解、生成及交叉推理。

radar plot

🏗️ 核心支柱：

SenseNova U1 的核心是 NEO-unify，这是一种从多模态 AI 基本原则出发设计的全新架构：它消除了视觉编码器（VE）和变分自动编码器（VAE），使像素-文字信息实现内在深度关联。 其主要特性如下：

🔗 以端到端方式将语言和视觉信息建模为统一复合体。
🖼️ 在保持像素级视觉保真度的同时，保留语义丰富性。
🧠 通过原生 MoTs 实现高效跨模态推理，最大限度减少冲突。

✨ 带来的突破：

借助这一全新核心架构，SenseNova U1 在多模态学习中展现出卓越效率：

_{左图：在 OneIG（英文、中文）、LongText（英文、中文）、BizGenEval（简单、困难）、CVTG 和 IGenBench 上的生成延迟与平均性能对比。

右图：在信息图表基准测试（即 BizGenEval（简单、困难）和 IGenBench）上的生成延迟与平均性能对比。}

- 🏆 **开源领域理解与生成双项最佳**：SenseNova U1 为统一多模态理解与生成树立了新标准，在各类理解、推理和生成基准测试中，均取得开源模型中的最佳性能。

📖 原生图文交叉生成：SenseNova U1 可通过单一模型在单次流程中生成连贯的交叉文本和图像，支持实用指南、旅行日记等应用场景，将清晰的信息传达与生动的故事叙述相结合，并将复杂信息转化为直观视觉内容。
📰 高密度信息呈现：SenseNova U1 在密集视觉传达方面表现出强大能力，能为知识图解、海报、演示文稿、漫画、简历及其他信息密集型格式生成结构丰富的布局。

🌍 超越多模态：

🤖 视觉-语言-行动（VLA）
🌐 世界建模（WM）

🦁 模型介绍

本次发布中，我们开源了两个尺寸的SenseNova U1 Lite系列模型：

SenseNova U1-8B-MoT — 密集型骨干网络
SenseNova U1-A3B-MoT — MoE骨干网络

模型	参数规模	Hugging Face权重
SenseNova-U1-8B-MoT-Infographic	8B MoT	🤗 链接
SenseNova-U1-8B-MoT-SFT	8B MoT	🤗 链接
SenseNova-U1-8B-MoT	8B MoT	🤗 链接
SenseNova-U1-8B-MoT-LoRA-8step-V1.0	0.4B	🤗 链接
SenseNova-U1-A3B-MoT-SFT	A3B MoT	🤗 链接
SenseNova-U1-A3B-MoT	A3B MoT	🤗 链接

这里的SFT模型（×32下采样率）通过理解预热、生成预训练、统一中期训练和统一SFT进行训练，最终模型则是在经过首轮T2I强化学习训练后得到的。

尽管以当今标准来看，这些模型规模相对紧凑，但它们已在各类任务中展现出强劲性能，可与商业模型相媲美，且具有出色的成本效益。值得注意的是，我们计划在未来推出更大规模的版本，以进一步增强模型能力和性能。

💡 SenseNova-U1-8B-MoT中的8B-MoT指的是约80亿理解参数以及约80亿生成参数。详见参数分解。

📋 待办清单

SenseNova-U1的训练代码
SenseNova-U1的最终权重和技术报告

🎨 效果展示

🖼️ 文本生成图像（通用）

🖼️ 文本生成图像（推理）

原始文本	推理过程	生成图像
一只雄孔雀试图吸引雌孔雀	1. 指令理解：核心主体是一只雄孔雀，动作是雄孔雀试图吸引雌孔雀。2. 推理过程：雄孔雀通过将尾羽展开成巨大而色彩斑斓的圆形屏来进行求偶展示。3. 确定构图：采用全身镜头捕捉雄孔雀，以完整展示其尾屏。视角为平视，以突出尾羽的高度。4. 设置光照与色彩：自然光线照亮色彩鲜艳的圆形尾屏，并形成柔和阴影。色彩以尾羽上鲜艳的蓝色和绿色为主。5. 锁定风格：风格为写实摄影，对焦清晰。效果自然，不添加艺术滤镜。6. 明确提示词：一只色彩鲜艳的雄孔雀，尾羽完全展开，形成宽大且闪耀着蓝绿色光芒的屏，站立在花园中。
一块小干木块和一个致密的铁块放在透明的水箱中	1. 指令理解：核心主体是一块小干木块和一个致密的铁块，它们被放置在透明水箱内。木块浮在水面，铁块沉入底部。2. 推理过程：木头密度小于水，因此会漂浮；铁密度大于水，因此会沉到底部。3. 确定构图：采用垂直中景拍摄，将矩形水箱置于画面中央。视角为平视，以清晰显示水位线和水箱底部。整个水箱深度都保持清晰对焦，确保两种物体都能清晰呈现。4. 构建环境：场景完全包含在透明玻璃水箱内。水占据水箱大部分容积，为漂浮的木块和沉没的铁块提供介质。背景虚化，以将注意力集中在水箱内部。5. 设置光照与色彩：柔和的自然光从左侧照亮场景，在水面产生柔和的反光。色彩上，木块的棕色纹理与铁块的深灰色金属质感形成对比。阴影通过液体扩散，显得柔和。6. 明确提示词：一张透明水箱的写实照片，展示一块木块漂浮在水面，一块铁块沉在底部。
那不勒斯所在国家的一道典型菜肴	1. 指令理解：核心主体是作为典型菜肴呈现的那不勒斯披萨。背景信息指明那不勒斯（意大利）是这道美食的起源地。2. 推理过程：那不勒斯位于意大利，其经典菜肴是那不勒斯披萨。3. 确定构图：那不勒斯披萨采用特写镜头拍摄，充满画面中心。视角略微抬高，以清晰展示菜肴的圆形形态。4. 设置光照与色彩：柔和的光线照亮那不勒斯披萨表面，以展现其质感。色彩以暖色调为主，突出菜肴的烘焙特性。5. 锁定风格：图像采用写实摄影风格，对主体对焦清晰。效果自然诱人，适合食物记录。6. 明确提示词：一份美味的那不勒斯披萨，拥有松软焦香的饼底、番茄酱和新鲜马苏里拉奶酪，放在质朴的木桌上，写实食物摄影。
碳酸钙溶液与乙酸发生反应	1. 指令理解：核心主体是碳酸钙和乙酸的溶液。提示词明确了该化学混合物的反应状态。2. 推理过程：该反应会产生二氧化碳气体，可以观察到稳定的气泡流从液体中升起。3. 确定构图：相机近距离拍摄溶液，以捕捉反应细节。构图以可见气体的液体为中心。4. 设置光照与色彩：液体呈透明状，使白色气泡清晰可见。光线明亮均匀，以照亮气体流。5. 锁定风格：图像保持适合科学观察的写实摄影风格。对焦清晰，突出反应溶液和气泡。6. 明确提示词：一个装满透明液体的试管，二氧化碳气泡快速、持续地上升到表面，实验室实验。

🖼️ 文本生成图像（信息图表）

📸 更多生成样本： 参见图像生成画廊。

✏️ 图像编辑（通用）


_{将左边人物的夹克改成亮黄色。}	_{在小狗头上放一个花环，并且把图片变为吉卜力风格。}
_{让图中的人微笑。}	_{添加一束花。}
_{将男性替换为女性。}	_{将文本“WARFIGHTER”替换为“BATTLEFIELD”，使用粗体橙红色字体。}

✏️ 图像编辑（推理）

原始文本	原始图像	推理过程	结果图像
画出一小时后的样子。		1. 源图像分析：源图像显示一杯热茶，茶叶正在浸泡，茶水看起来相对清澈。2. 指令理解：指令要求绘制一小时后的样子。3. 推理过程：随着时间推移，单宁和色素会析出，使茶水明显变深且颜色更加均匀，茶叶可能因浸泡而显得更加膨胀和深暗。4. 预期视觉变化：预期可见的结果是茶水呈现更深的琥珀色至棕色，液体颜色更饱满。5. 需保留元素：玻璃杯、周围散落的茶叶、背景以及拍摄角度应保持不变。6. 明确编辑提示：将茶水编辑为更深、更饱和的琥珀棕色，如同完全浸泡后的状态，并使茶叶看起来略深且更膨胀，同时保持玻璃杯、周围茶叶、背景和构图不变。
画出有人在上面坐了很长时间后刚站起来时的样子。		1. 源图像分析：源图像显示一个蓬松的酸橙绿色豆袋椅，在白色背景上看起来均匀饱满且未受干扰。2. 指令理解：编辑指令要求绘制有人在上面坐了很长时间后刚站起来时的样子。3. 推理过程：长时间的重量会压缩面料和内部填充物，留下凹陷的座位区域、向外辐射的褶皱以及缓慢恢复的形状。4. 预期视觉变化：可见结果应是在人坐过的地方有明显的凹陷和折痕。5. 需保留元素：背景、豆袋椅颜色、光线和拍摄角度应保持不变，仅豆袋椅的形状显示出压缩痕迹。6. 明确编辑提示：编辑豆袋椅，使其中心有明显的坐痕凹陷，周围有褶皱和略微压缩的面料，同时保持白色背景、光线和拍摄角度不变。
将水换成高浓度盐水		1. 源图像分析：源图像显示一个鸡蛋沉在一杯水的底部。2. 指令理解：指令要求将介质换成高浓度盐水。3. 推理过程：盐水的密度大于淡水，这会增加作用在鸡蛋上的浮力。4. 预期视觉变化：随着密度增加，鸡蛋将克服重力，漂浮得更高或悬浮在液体中间。5. 需保留元素：玻璃杯和鸡蛋的外观应保持一致，重点关注鸡蛋垂直位置的变化。6. 明确编辑提示：编辑鸡蛋的位置，使其漂浮在液体中间而不是沉在底部，同时保持玻璃杯和鸡蛋的外观不变。
图中的水果成熟时是什么样子		1. 源图像分析：源图像显示绿色的未成熟香蕉。2. 指令理解：指令要求绘制水果成熟时的样子。3. 推理过程：成熟过程涉及叶绿素的分解和糖分的产生，这会使果皮从绿色变为黄色，并通常会出现小的棕色糖斑。4. 预期视觉变化：果皮的颜色和质地应转变为成熟状态。5. 需保留元素：香蕉的形状和白色背景应保持不变。6. 明确编辑提示：将绿色香蕉编辑为亮黄色并带有小棕色斑点，同时保持原始形状和白色背景不变。

📸 更多编辑示例： 参见 Image Editing Gallery。

♻️ 交错生成（通用）

♻️ 交错生成（推理）

📸 更多交错生成示例： 参见 Interleaved Generation Gallery。

📝 视觉理解（通用）

📝 视觉理解（智能体）

📸 更多理解示例： 参见 Visual Understanding Gallery。

🦾 视觉-语言-动作

🦾 世界建模

📊 关键基准测试

📝 视觉理解

Understanding Benchmarks

🖼️ 视觉生成

Generation Benchmarks

♻️ 视觉推理

Interleaved Benchmarks

评估脚本和基准测试复现指南已添加至 evaluation。

⚠️ 持续改进方向

尽管模型在各项任务中表现出色，但仍存在一些需要改进的局限性：

视觉理解：
当前模型仅支持最长32K tokens的上下文长度，这可能在需要更长或更复杂视觉上下文的场景中限制性能。
以人为中心的生成：
人体的细粒度细节生成可能存在挑战，尤其是当人物在场景中占比较小或与周围物体存在复杂交互时。
文本生成：
文本渲染有时可能出现拼写错误、字符变形或格式不一致的问题，这对提示词的措辞较为敏感，在文本密集场景中尤为明显。（最佳实践请参见 prompt enhancement）
交错生成：
- 作为一项实验性功能，交错生成仍在不断发展中，其性能可能尚未达到专用文本到图像（T2I）流水线的水平。
- 测试版状态：强化学习（RL）尚未针对视觉编辑、推理和交错任务进行专门优化，当前性能与监督微调（SFT）模型相当。

我们将这些领域视为重点改进方向，并期望在未来的迭代版本中持续提升性能。

🛠️ 快速开始

🌐 通过 SenseNova-Studio 使用

体验 SenseNova-U1 最快捷的方式是通过 SenseNova-Studio —— 这是一个完全免费的在线平台，您可以直接在浏览器中试用该模型，无需安装任何软件或配备 GPU。

注意： 为了服务更多用户，U1-Fast 已进行步骤和 CFG 蒸馏，专门用于信息图表生成。

🦞 通过 SenseNova-Skills (OpenClaw) 使用

将 SenseNova-U1 集成到您自己的智能体或应用程序中最简单的方法是通过我们的配套仓库 SenseNova-Skills (OpenClaw) 🦞，该仓库将 SenseNova-U1 作为即用型技能提供，并带有统一的工具调用接口。

有关安装和使用详情，请参阅 SenseNova-Skills README。

✨ 通过我们的 Skills 和 Studio 生成的一些有趣案例

Skill Cases

🤗 通过 transformers 运行（默认方式）

设置： 请按照安装指南克隆仓库并使用 uv 安装依赖项。

📝 视觉理解

python examples/vqa/inference.py --model_path sensenova/SenseNova-U1-8B-MoT --image examples/vqa/data/images/menu.jpg --question "My friend and I are dining together tonight. Looking at this menu, can you recommend a good combination of dishes for 2 people? We want a balanced meal — a mix of mains and maybe a starter or dessert. Budget-conscious but want to try the highlights." --output outputs/answer.txt --max_new_tokens 8192 --do_sample --temperature 0.6 --top_p 0.95 --top_k 20 --repetition_penalty 1.05 --profile

有关批量推理、生成参数和 JSONL 格式的信息，请参见 examples/README.md。

🖼️ Text-to-Image

python examples/t2i/inference.py --model_path sensenova/SenseNova-U1-8B-MoT --prompt "这张信息图的标题是“SenseNova-U1”，采用现代极简科技矩阵风格。整体布局为水平三列网格结构，背景是带有极浅银灰色细密点阵的哑光纯白高级纸张纹理，画面长宽比为16:9。\n\n排版采用严谨的视觉层级：主标题使用粗体无衬线黑体字，正文使用清晰的现代等宽字体。配色方案极其克制，以纯白色为底，深炭黑为主视觉文字和边框，浅石板灰用于背景色块和次要信息区分，图标采用精致的银灰色线框绘制。\n\n在画面正上方居中位置，使用醒目的深炭黑粗体字排布着大标题“SenseNova-U1”。标题正下方是浅石板灰色的等宽字体副标题“新一代端到端统一多模态大模型家族”。\n\n画面主体分为左、中、右三个相等的垂直信息区块，区块之间通过充足的负空间进行物理隔离。\n\n左侧区块的主题是概述。顶部有一个银灰色线框绘制的、由放大镜和齿轮交织的图标，旁边是粗体小标题“Overview”。该区块内从上到下垂直排列着三个要点：第一个要点旁边是一个代表文档与照片重叠的极简图标，紧跟着文字“多模态模型家族，统一文本/图像理解和生成”。向下是由两个相连的同心圆组成的架构图标，配有文字“基于NEO-Unify架构（端到端统一理解和生成）”。最下方是一个带有斜线划掉的眼睛和漏斗形状的图标，明确指示文本“无需视觉编码器(VE)和变分自编码器(VAE)”。\n\n中间区块展示模型矩阵。顶部是一个包含两个分支节点的树状网络图标，旁边是粗体小标题“两个模型规格”。区块内分为上下两个包裹在浅石板灰色极细边框内的卡片。上方的卡片内画着一个代表高密度的实心几何立方体图标，大字标注“SenseNova-U1-8B-MoT”，下方是等宽字体说明“8B MoT 密集主干模型”。下方的卡片内画着一个带有闪电符号的网状发光大脑图标，大字标注“SenseNova-U1-A3B-MoT”，下方是等宽字体说明“A3B MoT 混合专家（MoE）主干模型”。在这两个独立卡片的正下方，左侧放置一个笑脸轮廓图标搭配文字“将在HF等平台公开”，右侧放置一个带有折角的书面报告图标搭配文字“将发布技术报告”。\n\n右侧区块呈现核心优势。顶部是一个代表巅峰的上升阶梯折线图图标，旁边是粗体小标题“Highlights”。该区块内部垂直分布着四个带有浅石板灰底色的长方形色块，每个色块内部左侧对应一个具体的图标，右侧为文字。第一个色块内是一个无缝相连的莫比乌斯环图标，配文“原生统一架构，无VE和VAE”。第二个色块内是一个顶端带有星星的奖杯图标，配文“单一统一模型在理解和生成任务上均达到SOTA性能”。第三个色块内是代表文本行与拍立得照片交替穿插的图标，配文“强大的原生交错推理能力（模型原生生成图像进行推理）”。最后一个色块内是一个被切分出一小块的硬币与详细饼状图结合的图标，配文“能生成复杂信息图表，性价比出色”。" --width 2720 --height 1536 --cfg_scale 4.0 --cfg_norm none --timestep_shift 3.0 --num_steps 50 --output output.png --profile

默认分辨率为 2048×2048（1:1）。其他宽高比请参见支持的分辨率桶。

如需生成高质量信息图表，建议在生成图像前应用提示词增强。

✏️ 图像编辑

python examples/editing/inference.py --model_path sensenova/SenseNova-U1-8B-MoT --prompt "Change the animal's fur color to a darker shade." --image examples/editing/data/images/1.webp --cfg_scale 4.0 --img_cfg_scale 1.0 --cfg_norm none --timestep_shift 3.0 --num_steps 50 --output output_edited.png --profile --compare

💡 推理前，建议将输入图像按原始宽高比调整至约 2048×2048 分辨率，以获得最佳效果（详见 examples/editing/resize_inputs.py）。

♻️ 交错生成

python examples/interleave/inference.py --model_path SenseNova/SenseNova-U1-8B-MoT --prompt "I want to learn how to cook tomato and egg stir-fry. Please give me a beginner-friendly illustrated tutorial." --resolution "16:9" --output_dir outputs/interleave/ --stem demo --profile

有关批量推理、JSONL 格式、提示词增强、分辨率桶以及完整参数说明，请参见 examples/README.md。

有关 GPU 内存分析器，请参见 docs/gpu_mem_profiler.md。

💾 内存高效推理（GGUF + VRAM 模式）

对于使用单块消费级 GPU 的用户，transformers 路径提供了两项互补功能以降低显存占用。它们可以自由组合使用。

GGUF 量化检查点

在四个推理脚本（t2i、editing、interleave、vqa）中的任意一个脚本中传入 --gguf_checkpoint 参数，即可通过 diffusers 的 GGUF Linear 层加载量化后的 .gguf 文件，而非 bf16 safetensors 权重。仍需提供基础的 --model_path（用于加载分词器、配置文件及非语言模型权重）。

# install the optional extra once
uv pip install -e ".[gguf]"   # or: pip install "gguf>=0.10.0" "diffusers>=0.30.0"
python examples/t2i/inference.py \
  --model_path sensenova/SenseNova-U1-8B-MoT \
  --gguf_checkpoint /path/to/SenseNova-U1-8B-MoT-Merger-Q4_K_M.gguf \
  --prompt "A male peacock trying to attract a female" \
  --output output.png

SenseNova-U1-8B-MoT-Merger的GGUF权重（包含多种量化级别：Q3 / Q4 / Q5 / Q6 / Q8）可在以下位置获取：

量化权重	HF链接
SenseNova-U1-8B-MoT-Merger-gguf	🤗 smthem/SenseNova-U1-8B-MoT-Merger-gguf

🙏 感谢GitHub用户@smthem为社区贡献了量化后的GGUF权重。

`--vram_mode`：单GPU层卸载

传递--vram_mode参数可将语言模型层常驻于CPU固定内存中，并在前向传播时按需将其流式传输至GPU，从而释放权重占用的显存，同时将激活值保留在设备上。

模式	行为	使用场景
`full`（默认）	不进行卸载；整个模型位于GPU	显存充足，速度最佳
`low`	同步逐层CPU↔GPU交换	显存占用最低
`balanced`	异步预取，将主机到设备（H2D）复制与计算重叠	显存紧张但希望恢复部分速度

python examples/t2i/inference.py \
  --model_path sensenova/SenseNova-U1-8B-MoT \
  --vram_mode balanced \
  --prompt "..." --output output.png

--gguf_checkpoint 和 --vram_mode 组合：对于显存约为 10–12 GB 的消费级显卡，推荐使用 Q4 GGUF + balanced 的设置。

⚡ 使用 LightLLM + LightX2V 运行（推荐）

在生产环境部署时，我们基于 LightLLM（理解）和 LightX2V（生成）协同设计了专用的推理栈。这两个引擎相互解耦，因此每条处理路径都可以使用各自的并行方式和资源预算，并且它们之间设有低开销的传输通道。

在配备 TP2 + CFG2 的单节点上，该推理栈在 H100 / H200 上处理 2048×2048 图像时，可实现约 0.15 秒/步 和 9 秒端到端 的性能。通过我们基于 FA3 的混合掩码注意力机制，相比 Triton 基准，预填充速度提升了约 2.4–3.2 倍。完整的每 GPU 性能数据已在 docs/inference_infra.md 中报告。

我们提供了官方 Docker 镜像，支持一键部署：

docker pull lightx2v/lightllm_lightx2v:20260407

⚙️ 部署指南（Docker、启动参数、模式、量化、API 测试）：参见 docs/deployment.md。

📖 完整设计与性能分析：参见 docs/inference_infra.md。

🌐 加入社区！

加入我们不断壮大的社区，分享反馈、获取支持，并及时了解 SenseNova-U1 的最新动态 — 我们期待听到您的声音！

Discord	微信群

## ⚖️ 许可证

本项目基于 Apache 2.0 许可证发布。

SenseNova-U1: 通过 NEO-unify 架构实现多模态理解与生成的统一

English | 简体中文

SenseNova-U1

visualization

📣 更新动态

[2026.05.15] 发布 SenseNova-U1-8B-MoT-Infographic 📊，用于提升信息图表生成效果。详情请参见 U1 信息图表模型，并可在 ✨ 信息图表展示中查看 100 个生成示例。
[2026.05.10] 发布 🔥SenseNova-U1 技术报告🔥 以及 SenseNova-U1-A3B-MoT-SFT 和 SenseNova-U1-A3B-MoT 的权重。
[2026.05.08] 新增 GGUF 量化检查点 和 分层卸载显存模式，支持低显存单 GPU 推理。详见内存高效推理。SenseNova-U1-8B-MoT-Merger 的 GGUF 权重可在 🤗 smthem/SenseNova-U1-8B-MoT-Merger-gguf 获取——特别感谢 @smthem 贡献量化权重。
[2026.05.06] 发布 SenseNova-U1-8B-MoT-LoRA-8step-V1.0。使用示例脚本请参见示例脚本。
[2026.04.30] 发布 8 步推理模型预览版 SenseNova-U1-8B-MoT-8step-preview。在多数情况下，该模型的图像生成质量与基础模型接近（详见对比及现存问题）。测试此模型可使用推理脚本，并添加以下参数：--cfg_scale 1.0 --num_steps 8 。
[2026.04.27] 首次发布 SenseNova-U1-8B-MoT-SFT 和 SenseNova-U1-8B-MoT 的权重。
[2026.04.27] 首次发布 SenseNova-U1 的推理代码。

🌟 概述

在端到端架构中从像素到文字统一视觉理解与生成，开启了巨大的可能性，以原生多模态方式实现高效且强大的理解、生成及交叉推理。

radar plot

🏗️ 核心支柱：

🔗 以端到端方式将语言和视觉信息建模为统一复合体。
🖼️ 在保持像素级视觉保真度的同时，保留语义丰富性。
🧠 通过原生 MoTs 实现高效跨模态推理，最大限度减少冲突。

✨ 带来的突破：

借助这一全新核心架构，SenseNova U1 在多模态学习中展现出卓越效率：

📖 原生图文交叉生成：SenseNova U1 可通过单一模型在单次流程中生成连贯的交叉文本和图像，支持实用指南、旅行日记等应用场景，将清晰的信息传达与生动的故事叙述相结合，并将复杂信息转化为直观视觉内容。
📰 高密度信息呈现：SenseNova U1 在密集视觉传达方面表现出强大能力，能为知识图解、海报、演示文稿、漫画、简历及其他信息密集型格式生成结构丰富的布局。

🌍 超越多模态：

🤖 视觉-语言-行动（VLA）
🌐 世界建模（WM）

🦁 模型介绍

本次发布中，我们开源了两个尺寸的SenseNova U1 Lite系列模型：

SenseNova U1-8B-MoT — 密集型骨干网络
SenseNova U1-A3B-MoT — MoE骨干网络

模型	参数规模	Hugging Face权重
SenseNova-U1-8B-MoT-Infographic	8B MoT	🤗 链接
SenseNova-U1-8B-MoT-SFT	8B MoT	🤗 链接
SenseNova-U1-8B-MoT	8B MoT	🤗 链接
SenseNova-U1-8B-MoT-LoRA-8step-V1.0	0.4B	🤗 链接
SenseNova-U1-A3B-MoT-SFT	A3B MoT	🤗 链接
SenseNova-U1-A3B-MoT	A3B MoT	🤗 链接

💡 SenseNova-U1-8B-MoT中的8B-MoT指的是约80亿理解参数以及约80亿生成参数。详见参数分解。

📋 待办清单

SenseNova-U1的训练代码
SenseNova-U1的最终权重和技术报告

🎨 效果展示

🖼️ 文本生成图像（通用）

🖼️ 文本生成图像（推理）

原始文本	推理过程	生成图像
一只雄孔雀试图吸引雌孔雀	1. 指令理解：核心主体是一只雄孔雀，动作是雄孔雀试图吸引雌孔雀。2. 推理过程：雄孔雀通过将尾羽展开成巨大而色彩斑斓的圆形屏来进行求偶展示。3. 确定构图：采用全身镜头捕捉雄孔雀，以完整展示其尾屏。视角为平视，以突出尾羽的高度。4. 设置光照与色彩：自然光线照亮色彩鲜艳的圆形尾屏，并形成柔和阴影。色彩以尾羽上鲜艳的蓝色和绿色为主。5. 锁定风格：风格为写实摄影，对焦清晰。效果自然，不添加艺术滤镜。6. 明确提示词：一只色彩鲜艳的雄孔雀，尾羽完全展开，形成宽大且闪耀着蓝绿色光芒的屏，站立在花园中。
一块小干木块和一个致密的铁块放在透明的水箱中	1. 指令理解：核心主体是一块小干木块和一个致密的铁块，它们被放置在透明水箱内。木块浮在水面，铁块沉入底部。2. 推理过程：木头密度小于水，因此会漂浮；铁密度大于水，因此会沉到底部。3. 确定构图：采用垂直中景拍摄，将矩形水箱置于画面中央。视角为平视，以清晰显示水位线和水箱底部。整个水箱深度都保持清晰对焦，确保两种物体都能清晰呈现。4. 构建环境：场景完全包含在透明玻璃水箱内。水占据水箱大部分容积，为漂浮的木块和沉没的铁块提供介质。背景虚化，以将注意力集中在水箱内部。5. 设置光照与色彩：柔和的自然光从左侧照亮场景，在水面产生柔和的反光。色彩上，木块的棕色纹理与铁块的深灰色金属质感形成对比。阴影通过液体扩散，显得柔和。6. 明确提示词：一张透明水箱的写实照片，展示一块木块漂浮在水面，一块铁块沉在底部。
那不勒斯所在国家的一道典型菜肴	1. 指令理解：核心主体是作为典型菜肴呈现的那不勒斯披萨。背景信息指明那不勒斯（意大利）是这道美食的起源地。2. 推理过程：那不勒斯位于意大利，其经典菜肴是那不勒斯披萨。3. 确定构图：那不勒斯披萨采用特写镜头拍摄，充满画面中心。视角略微抬高，以清晰展示菜肴的圆形形态。4. 设置光照与色彩：柔和的光线照亮那不勒斯披萨表面，以展现其质感。色彩以暖色调为主，突出菜肴的烘焙特性。5. 锁定风格：图像采用写实摄影风格，对主体对焦清晰。效果自然诱人，适合食物记录。6. 明确提示词：一份美味的那不勒斯披萨，拥有松软焦香的饼底、番茄酱和新鲜马苏里拉奶酪，放在质朴的木桌上，写实食物摄影。
碳酸钙溶液与乙酸发生反应	1. 指令理解：核心主体是碳酸钙和乙酸的溶液。提示词明确了该化学混合物的反应状态。2. 推理过程：该反应会产生二氧化碳气体，可以观察到稳定的气泡流从液体中升起。3. 确定构图：相机近距离拍摄溶液，以捕捉反应细节。构图以可见气体的液体为中心。4. 设置光照与色彩：液体呈透明状，使白色气泡清晰可见。光线明亮均匀，以照亮气体流。5. 锁定风格：图像保持适合科学观察的写实摄影风格。对焦清晰，突出反应溶液和气泡。6. 明确提示词：一个装满透明液体的试管，二氧化碳气泡快速、持续地上升到表面，实验室实验。

🖼️ 文本生成图像（信息图表）

📸 更多生成样本： 参见图像生成画廊。

✏️ 图像编辑（通用）


_{将左边人物的夹克改成亮黄色。}	_{在小狗头上放一个花环，并且把图片变为吉卜力风格。}
_{让图中的人微笑。}	_{添加一束花。}
_{将男性替换为女性。}	_{将文本“WARFIGHTER”替换为“BATTLEFIELD”，使用粗体橙红色字体。}

✏️ 图像编辑（推理）

原始文本	原始图像	推理过程	结果图像
画出一小时后的样子。		1. 源图像分析：源图像显示一杯热茶，茶叶正在浸泡，茶水看起来相对清澈。2. 指令理解：指令要求绘制一小时后的样子。3. 推理过程：随着时间推移，单宁和色素会析出，使茶水明显变深且颜色更加均匀，茶叶可能因浸泡而显得更加膨胀和深暗。4. 预期视觉变化：预期可见的结果是茶水呈现更深的琥珀色至棕色，液体颜色更饱满。5. 需保留元素：玻璃杯、周围散落的茶叶、背景以及拍摄角度应保持不变。6. 明确编辑提示：将茶水编辑为更深、更饱和的琥珀棕色，如同完全浸泡后的状态，并使茶叶看起来略深且更膨胀，同时保持玻璃杯、周围茶叶、背景和构图不变。
画出有人在上面坐了很长时间后刚站起来时的样子。		1. 源图像分析：源图像显示一个蓬松的酸橙绿色豆袋椅，在白色背景上看起来均匀饱满且未受干扰。2. 指令理解：编辑指令要求绘制有人在上面坐了很长时间后刚站起来时的样子。3. 推理过程：长时间的重量会压缩面料和内部填充物，留下凹陷的座位区域、向外辐射的褶皱以及缓慢恢复的形状。4. 预期视觉变化：可见结果应是在人坐过的地方有明显的凹陷和折痕。5. 需保留元素：背景、豆袋椅颜色、光线和拍摄角度应保持不变，仅豆袋椅的形状显示出压缩痕迹。6. 明确编辑提示：编辑豆袋椅，使其中心有明显的坐痕凹陷，周围有褶皱和略微压缩的面料，同时保持白色背景、光线和拍摄角度不变。
将水换成高浓度盐水		1. 源图像分析：源图像显示一个鸡蛋沉在一杯水的底部。2. 指令理解：指令要求将介质换成高浓度盐水。3. 推理过程：盐水的密度大于淡水，这会增加作用在鸡蛋上的浮力。4. 预期视觉变化：随着密度增加，鸡蛋将克服重力，漂浮得更高或悬浮在液体中间。5. 需保留元素：玻璃杯和鸡蛋的外观应保持一致，重点关注鸡蛋垂直位置的变化。6. 明确编辑提示：编辑鸡蛋的位置，使其漂浮在液体中间而不是沉在底部，同时保持玻璃杯和鸡蛋的外观不变。
图中的水果成熟时是什么样子		1. 源图像分析：源图像显示绿色的未成熟香蕉。2. 指令理解：指令要求绘制水果成熟时的样子。3. 推理过程：成熟过程涉及叶绿素的分解和糖分的产生，这会使果皮从绿色变为黄色，并通常会出现小的棕色糖斑。4. 预期视觉变化：果皮的颜色和质地应转变为成熟状态。5. 需保留元素：香蕉的形状和白色背景应保持不变。6. 明确编辑提示：将绿色香蕉编辑为亮黄色并带有小棕色斑点，同时保持原始形状和白色背景不变。

📸 更多编辑示例： 参见 Image Editing Gallery。

♻️ 交错生成（通用）

♻️ 交错生成（推理）

📸 更多交错生成示例： 参见 Interleaved Generation Gallery。

📝 视觉理解（通用）

📝 视觉理解（智能体）

📸 更多理解示例： 参见 Visual Understanding Gallery。

🦾 视觉-语言-动作

🦾 世界建模

📊 关键基准测试

📝 视觉理解

Understanding Benchmarks

🖼️ 视觉生成

Generation Benchmarks

♻️ 视觉推理

Interleaved Benchmarks

评估脚本和基准测试复现指南已添加至 evaluation。

⚠️ 持续改进方向

尽管模型在各项任务中表现出色，但仍存在一些需要改进的局限性：

视觉理解：
当前模型仅支持最长32K tokens的上下文长度，这可能在需要更长或更复杂视觉上下文的场景中限制性能。
以人为中心的生成：
人体的细粒度细节生成可能存在挑战，尤其是当人物在场景中占比较小或与周围物体存在复杂交互时。
文本生成：
文本渲染有时可能出现拼写错误、字符变形或格式不一致的问题，这对提示词的措辞较为敏感，在文本密集场景中尤为明显。（最佳实践请参见 prompt enhancement）
交错生成：
- 作为一项实验性功能，交错生成仍在不断发展中，其性能可能尚未达到专用文本到图像（T2I）流水线的水平。
- 测试版状态：强化学习（RL）尚未针对视觉编辑、推理和交错任务进行专门优化，当前性能与监督微调（SFT）模型相当。

我们将这些领域视为重点改进方向，并期望在未来的迭代版本中持续提升性能。

🛠️ 快速开始

🌐 通过 SenseNova-Studio 使用

注意： 为了服务更多用户，U1-Fast 已进行步骤和 CFG 蒸馏，专门用于信息图表生成。

🦞 通过 SenseNova-Skills (OpenClaw) 使用

有关安装和使用详情，请参阅 SenseNova-Skills README。

✨ 通过我们的 Skills 和 Studio 生成的一些有趣案例

Skill Cases

🤗 通过 transformers 运行（默认方式）

设置： 请按照安装指南克隆仓库并使用 uv 安装依赖项。

📝 视觉理解

python examples/vqa/inference.py --model_path sensenova/SenseNova-U1-8B-MoT --image examples/vqa/data/images/menu.jpg --question "My friend and I are dining together tonight. Looking at this menu, can you recommend a good combination of dishes for 2 people? We want a balanced meal — a mix of mains and maybe a starter or dessert. Budget-conscious but want to try the highlights." --output outputs/answer.txt --max_new_tokens 8192 --do_sample --temperature 0.6 --top_p 0.95 --top_k 20 --repetition_penalty 1.05 --profile

有关批量推理、生成参数和 JSONL 格式的信息，请参见 examples/README.md。

🖼️ Text-to-Image

python examples/t2i/inference.py --model_path sensenova/SenseNova-U1-8B-MoT --prompt "这张信息图的标题是“SenseNova-U1”，采用现代极简科技矩阵风格。整体布局为水平三列网格结构，背景是带有极浅银灰色细密点阵的哑光纯白高级纸张纹理，画面长宽比为16:9。\n\n排版采用严谨的视觉层级：主标题使用粗体无衬线黑体字，正文使用清晰的现代等宽字体。配色方案极其克制，以纯白色为底，深炭黑为主视觉文字和边框，浅石板灰用于背景色块和次要信息区分，图标采用精致的银灰色线框绘制。\n\n在画面正上方居中位置，使用醒目的深炭黑粗体字排布着大标题“SenseNova-U1”。标题正下方是浅石板灰色的等宽字体副标题“新一代端到端统一多模态大模型家族”。\n\n画面主体分为左、中、右三个相等的垂直信息区块，区块之间通过充足的负空间进行物理隔离。\n\n左侧区块的主题是概述。顶部有一个银灰色线框绘制的、由放大镜和齿轮交织的图标，旁边是粗体小标题“Overview”。该区块内从上到下垂直排列着三个要点：第一个要点旁边是一个代表文档与照片重叠的极简图标，紧跟着文字“多模态模型家族，统一文本/图像理解和生成”。向下是由两个相连的同心圆组成的架构图标，配有文字“基于NEO-Unify架构（端到端统一理解和生成）”。最下方是一个带有斜线划掉的眼睛和漏斗形状的图标，明确指示文本“无需视觉编码器(VE)和变分自编码器(VAE)”。\n\n中间区块展示模型矩阵。顶部是一个包含两个分支节点的树状网络图标，旁边是粗体小标题“两个模型规格”。区块内分为上下两个包裹在浅石板灰色极细边框内的卡片。上方的卡片内画着一个代表高密度的实心几何立方体图标，大字标注“SenseNova-U1-8B-MoT”，下方是等宽字体说明“8B MoT 密集主干模型”。下方的卡片内画着一个带有闪电符号的网状发光大脑图标，大字标注“SenseNova-U1-A3B-MoT”，下方是等宽字体说明“A3B MoT 混合专家（MoE）主干模型”。在这两个独立卡片的正下方，左侧放置一个笑脸轮廓图标搭配文字“将在HF等平台公开”，右侧放置一个带有折角的书面报告图标搭配文字“将发布技术报告”。\n\n右侧区块呈现核心优势。顶部是一个代表巅峰的上升阶梯折线图图标，旁边是粗体小标题“Highlights”。该区块内部垂直分布着四个带有浅石板灰底色的长方形色块，每个色块内部左侧对应一个具体的图标，右侧为文字。第一个色块内是一个无缝相连的莫比乌斯环图标，配文“原生统一架构，无VE和VAE”。第二个色块内是一个顶端带有星星的奖杯图标，配文“单一统一模型在理解和生成任务上均达到SOTA性能”。第三个色块内是代表文本行与拍立得照片交替穿插的图标，配文“强大的原生交错推理能力（模型原生生成图像进行推理）”。最后一个色块内是一个被切分出一小块的硬币与详细饼状图结合的图标，配文“能生成复杂信息图表，性价比出色”。" --width 2720 --height 1536 --cfg_scale 4.0 --cfg_norm none --timestep_shift 3.0 --num_steps 50 --output output.png --profile

默认分辨率为 2048×2048（1:1）。其他宽高比请参见支持的分辨率桶。

如需生成高质量信息图表，建议在生成图像前应用提示词增强。

✏️ 图像编辑

python examples/editing/inference.py --model_path sensenova/SenseNova-U1-8B-MoT --prompt "Change the animal's fur color to a darker shade." --image examples/editing/data/images/1.webp --cfg_scale 4.0 --img_cfg_scale 1.0 --cfg_norm none --timestep_shift 3.0 --num_steps 50 --output output_edited.png --profile --compare

💡 推理前，建议将输入图像按原始宽高比调整至约 2048×2048 分辨率，以获得最佳效果（详见 examples/editing/resize_inputs.py）。

♻️ 交错生成

python examples/interleave/inference.py --model_path SenseNova/SenseNova-U1-8B-MoT --prompt "I want to learn how to cook tomato and egg stir-fry. Please give me a beginner-friendly illustrated tutorial." --resolution "16:9" --output_dir outputs/interleave/ --stem demo --profile

有关批量推理、JSONL 格式、提示词增强、分辨率桶以及完整参数说明，请参见 examples/README.md。

有关 GPU 内存分析器，请参见 docs/gpu_mem_profiler.md。

💾 内存高效推理（GGUF + VRAM 模式）

对于使用单块消费级 GPU 的用户，transformers 路径提供了两项互补功能以降低显存占用。它们可以自由组合使用。

GGUF 量化检查点

# install the optional extra once
uv pip install -e ".[gguf]"   # or: pip install "gguf>=0.10.0" "diffusers>=0.30.0"
python examples/t2i/inference.py \
  --model_path sensenova/SenseNova-U1-8B-MoT \
  --gguf_checkpoint /path/to/SenseNova-U1-8B-MoT-Merger-Q4_K_M.gguf \
  --prompt "A male peacock trying to attract a female" \
  --output output.png

SenseNova-U1-8B-MoT-Merger的GGUF权重（包含多种量化级别：Q3 / Q4 / Q5 / Q6 / Q8）可在以下位置获取：

量化权重	HF链接
SenseNova-U1-8B-MoT-Merger-gguf	🤗 smthem/SenseNova-U1-8B-MoT-Merger-gguf

🙏 感谢GitHub用户@smthem为社区贡献了量化后的GGUF权重。

`--vram_mode`：单GPU层卸载

模式	行为	使用场景
`full`（默认）	不进行卸载；整个模型位于GPU	显存充足，速度最佳
`low`	同步逐层CPU↔GPU交换	显存占用最低
`balanced`	异步预取，将主机到设备（H2D）复制与计算重叠	显存紧张但希望恢复部分速度

python examples/t2i/inference.py \
  --model_path sensenova/SenseNova-U1-8B-MoT \
  --vram_mode balanced \
  --prompt "..." --output output.png

--gguf_checkpoint 和 --vram_mode 组合：对于显存约为 10–12 GB 的消费级显卡，推荐使用 Q4 GGUF + balanced 的设置。

⚡ 使用 LightLLM + LightX2V 运行（推荐）

我们提供了官方 Docker 镜像，支持一键部署：

docker pull lightx2v/lightllm_lightx2v:20260407

⚙️ 部署指南（Docker、启动参数、模式、量化、API 测试）：参见 docs/deployment.md。

📖 完整设计与性能分析：参见 docs/inference_infra.md。

🌐 加入社区！

加入我们不断壮大的社区，分享反馈、获取支持，并及时了解 SenseNova-U1 的最新动态 — 我们期待听到您的声音！

Discord	微信群

## ⚖️ 许可证

本项目基于 Apache 2.0 许可证发布。

SenseNova-U1: 通过 NEO-unify 架构实现多模态理解与生成的统一

📣 更新动态

🌟 概述

🏗️ 核心支柱：

✨ 带来的突破：

🌍 超越多模态：

🦁 模型介绍

📋 待办清单

🎨 效果展示

📊 关键基准测试

⚠️ 持续改进方向

🛠️ 快速开始

🌐 通过 SenseNova-Studio 使用

🦞 通过 SenseNova-Skills (OpenClaw) 使用

🤗 通过 transformers 运行（默认方式）

💾 内存高效推理（GGUF + VRAM 模式）

GGUF 量化检查点

--vram_mode：单GPU层卸载

⚡ 使用 LightLLM + LightX2V 运行（推荐）

🌐 加入社区！

SenseNova-U1: 通过 NEO-unify 架构实现多模态理解与生成的统一

📣 更新动态

🌟 概述

🏗️ 核心支柱：

✨ 带来的突破：

🌍 超越多模态：

🦁 模型介绍

📋 待办清单

🎨 效果展示

📊 关键基准测试

⚠️ 持续改进方向

🛠️ 快速开始

🌐 通过 SenseNova-Studio 使用

🦞 通过 SenseNova-Skills (OpenClaw) 使用

🤗 通过 transformers 运行（默认方式）

💾 内存高效推理（GGUF + VRAM 模式）

GGUF 量化检查点

--vram_mode：单GPU层卸载

⚡ 使用 LightLLM + LightX2V 运行（推荐）

🌐 加入社区！

`--vram_mode`：单GPU层卸载

`--vram_mode`：单GPU层卸载