HuggingFace镜像/Quasar-10B
模型介绍文件和版本分析

Quasar Foundation Model

Quasar-10B:全线性基础模型

Quasar-10B 是由 SILX AI 开发的高性能基础模型。它基于 Qwen3.5-9B-Base 架构构建,经过根本性的重新设计,以支持超长上下文推理(200 万+ tokens),同时保持高计算效率。

该模型标志着 Quasar 训练框架的重大转变,从传统的基于 Softmax 的注意力机制转向 混合门控线性注意力(GLA) 架构。


模型概述

模型名称: Quasar-10B
组织: SILX AI
基础模型: Qwen3.5-9B-Base

架构演进

原始 Qwen3.5 架构结合了门控 Delta 注意力和 Softmax 门控注意力。为了满足 Quasar 对无限扩展和高效状态管理的设计要求,我们进行了深度架构替换:

  • GLA 集成:将目标注意力层替换为 门控线性注意力(GLA)。
  • NOPE(无位置嵌入):移除了传统的 RoPE(旋转位置嵌入),以消除位置偏差并支持原生扩展至数百万 tokens。

    [!NOTE]
    选择 GLA 作为核心线性机制,是为了与 Quasar 22B MoE 设计保持精确的架构一致性。该模型是 silx-ai/Quasar-V1-Base-Stage1 的直接演进版本,利用 Quasar 连续时间注意力进行状态轨迹优化。


训练方法

Quasar-10B 的开发遵循严格的两阶段流程:

阶段一:结构蒸馏(100 亿 tokens)

为确保新的 GLA 层正确继承原始 Qwen 头的能力:

  • 流程:分层结构蒸馏。我们使用 Qwen3.5 权重初始化学生模型,并将特定层替换为 GLA 单元。
  • 损失:结合 MSE(隐藏状态模拟)和交叉熵(语言建模)的混合损失。
  • 数据量:100 亿 tokens 的高质量推理数据。
  • 目标:最小化结构差异,并将预训练的世界知识迁移到新的线性状态中。

阶段 2:原生 200 万上下文扩展(200 亿 tokens)

模型结构稳定后,我们将其推向了极限序列长度:

  • 位置编码:完全移除 RoPE,并替换为 NOPE(无位置嵌入)。
  • 上下文长度:原生训练序列长度为 2,097,152(200 万)。
  • 数据量:200 亿 tokens。
  • 硬件:针对 B200 HBM 效率进行了优化,利用子分块顺序处理来维持 200 万 token 的活跃状态。

特性

  • 无限循环:GLA 架构使模型能够以线性复杂度处理远超其训练窗口的序列。
  • 卓越推理能力:在 Nemotron-Pretraining-Specialized-v1 混合数据集上进行训练,专注于数学、STEM 和以代码为中心的推理。
  • B200 优化:专门针对 NVIDIA Blackwell 硬件进行调优,以实现最大吞吐量。

技术说明

Quasar-10B 是我们技术栈中首个“循环基础模型”,成功弥合了 Transformer 规模预训练与 RNN 式线性效率之间的差距。通过移除位置嵌入,我们允许模型完全依赖其内部状态轨迹来实现时间连贯性。


后续步骤

Quasar 路线图将继续朝着更大规模和更深层次的 MoE 集成迈进。如需技术研究和集成支持,请联系 SILX AI 团队。


[!IMPORTANT]
战略目的:Quasar-10B 被设计为一个基础的高上下文引擎。它将专门用于为即将推出的 Quasar 22B MoE 提炼知识并生成合成推理数据,确保更大的混合专家模型能够从这个完全线性的基础模型中继承卓越的长上下文连贯性和精细化的逻辑状态轨迹。

下载使用量0