HuggingFace镜像/Gemma4-26B-A4B-PRISM-PRO-DQ-GGUF
模型介绍文件和版本分析
下载使用量0

参数 格式 量化 多模态

MYTHOS-26B-A4B — PRISM 动态量化 (GGUF)

Gemma 4 26B-A4B MoE PRISM-PRO-Dynamic-Quant

  • PRISM-PRO:生产级模型,采用最先进的PRISM 流水线,完全移除了过度拒绝和偏见机制。
  • DQ:基于权重结构敏感性分析得出的逐张量类别混合精度分配 — 而非封闭门控数据集。

由 Ex0bit 创建


💡 支持我的研发工作。会员可在第 0 天获取最新的 PRISM-PRO 模型

Ko-fi


模型详情

属性值
基础模型google/gemma-4-26B-A4B-it
架构Gemma 4 MoE(128 个专家,top-8 路由)
参数总计 260 亿 / 每 token 激活 40 亿
量化方式PRISM-PRO-DYNAMIC-QUANT
实现 BPW5.73
文件大小~17 GB(语言)+ ~1.2 GB(视觉投影器)
上下文长度262,144 tokens
模态文本、图像、视频
创建者Ex0bit

支持的模态

  • 文本:完整的指令遵循和对话功能
  • 图像:通过 SigLIP 编码器实现视觉理解(每幅图像 280 个软 tokens)
  • 视频:Gemma4VideoProcessor(32 帧,池化处理)

注意:此 26B MoE 变体不包含音频支持。如需音频功能,请参见 31B 密集型变体。

文件

文件大小用途
mythos-26b-a4b-prism-pro-dq.gguf17 GB语言模型(已量化)
mmproj-mythos-26b-a4b-prism-pro.gguf1.2 GB视觉投影器(F16)

多模态推理需要这两个文件。仅文本使用时,只需语言模型文件。

PRISM-DQ 量化

该模型采用PRISM-PRO 动态量化技术——这是一种基于张量类别进行混合精度分配的方法,会根据权重结构的敏感度为不同的张量类别分配不同的量化类型。

与均匀量化(Q4_K_M、Q5_K_M)不同,PRISM-DQ 会分析每个张量类别的敏感度,并在最关键的地方分配精度。注意力投影层会获得比 FFN 层更高的精度,同时通过块级覆盖来保护关键层。

结果:以 5.73 位/权重实现与 BF16 相当的质量——在实现 64% 尺寸缩减的同时,没有可测量的质量损失。

使用方法

llama.cpp(带视觉的多模态)

llama-mtmd-cli \
  --model mythos-26b-a4b-prism-pro-dq.gguf \
  --mmproj mmproj-mythos-26b-a4b-prism-pro.gguf \
  --image path/to/image.jpg \
  --prompt "Describe this image." \
  -ngl 99

llama.cpp(纯文本服务器)

llama-server \
  --model mythos-26b-a4b-prism-pro-dq.gguf \
  --port 8080 -ngl 99

LM Studio

请同时下载 mythos-26b-a4b-prism-pro-dq.gguf 和 mmproj-mythos-26b-a4b-prism-pro.gguf 文件。LM Studio 会自动检测用于多模态聊天的视觉投影器。

拒绝与偏见消除

本模型通过最先进的 PRISM 流水线对基础模型 google/gemma-4-26B-A4B-it 进行了处理,以消除其中的偏见、过度拒绝和宣传内容。

许可证

Apache 2.0(继承自 google/gemma-4-26B-A4B-it)

鸣谢

  • 创建者:Ex0bit
  • 基础模型:Google DeepMind
  • 量化引擎:PRISM-DQ,由 Ex0bit 开发