Gemma 4 26B-A4B MoE PRISM-PRO-Dynamic-Quant
由 Ex0bit 创建
| 属性 | 值 |
|---|---|
| 基础模型 | google/gemma-4-26B-A4B-it |
| 架构 | Gemma 4 MoE(128 个专家,top-8 路由) |
| 参数 | 总计 260 亿 / 每 token 激活 40 亿 |
| 量化方式 | PRISM-PRO-DYNAMIC-QUANT |
| 实现 BPW | 5.73 |
| 文件大小 | ~17 GB(语言)+ ~1.2 GB(视觉投影器) |
| 上下文长度 | 262,144 tokens |
| 模态 | 文本、图像、视频 |
| 创建者 | Ex0bit |
注意:此 26B MoE 变体不包含音频支持。如需音频功能,请参见 31B 密集型变体。
| 文件 | 大小 | 用途 |
|---|---|---|
mythos-26b-a4b-prism-pro-dq.gguf | 17 GB | 语言模型(已量化) |
mmproj-mythos-26b-a4b-prism-pro.gguf | 1.2 GB | 视觉投影器(F16) |
多模态推理需要这两个文件。仅文本使用时,只需语言模型文件。
该模型采用PRISM-PRO 动态量化技术——这是一种基于张量类别进行混合精度分配的方法,会根据权重结构的敏感度为不同的张量类别分配不同的量化类型。
与均匀量化(Q4_K_M、Q5_K_M)不同,PRISM-DQ 会分析每个张量类别的敏感度,并在最关键的地方分配精度。注意力投影层会获得比 FFN 层更高的精度,同时通过块级覆盖来保护关键层。
结果:以 5.73 位/权重实现与 BF16 相当的质量——在实现 64% 尺寸缩减的同时,没有可测量的质量损失。
llama-mtmd-cli \
--model mythos-26b-a4b-prism-pro-dq.gguf \
--mmproj mmproj-mythos-26b-a4b-prism-pro.gguf \
--image path/to/image.jpg \
--prompt "Describe this image." \
-ngl 99llama-server \
--model mythos-26b-a4b-prism-pro-dq.gguf \
--port 8080 -ngl 99请同时下载 mythos-26b-a4b-prism-pro-dq.gguf 和 mmproj-mythos-26b-a4b-prism-pro.gguf 文件。LM Studio 会自动检测用于多模态聊天的视觉投影器。
本模型通过最先进的 PRISM 流水线对基础模型 google/gemma-4-26B-A4B-it 进行了处理,以消除其中的偏见、过度拒绝和宣传内容。
Apache 2.0(继承自 google/gemma-4-26B-A4B-it)