b
bcdhuss/Ling-2.6-1T
模型介绍文件和版本Pull Requests讨论分析

Ling-2.6-1T

模型描述

Ling-2.6-1T 是一款基于 bailing_hybrid 架构的大规模语言模型,其特点在于融合了多头潜在注意力(MLA)与线性注意力的混合注意力机制,并采用了混合专家(MoE)设计。

模型详情

属性值
模型类型bailing_hybrid
架构BailingMoeV2_5ForCausalLM
隐藏层大小8192
层数80
注意力头数64
专家数量256(路由)+ 1(共享)
上下文长度262,144
量化方式压缩张量 FP8 动态
许可证MIT

使用方法

该模型可在 ModelScope 获取。

引用说明

引用信息请参考 HuggingFace 或 ModelScope 上的模型卡片。

下载使用量0