HuggingFace镜像/Gemma4-26B-A4B-PRISM-PRO-DQ-GGUF

MYTHOS-26B-A4B — PRISM 动态量化 (GGUF)

Gemma 4 26B-A4B MoE PRISM-PRO-Dynamic-Quant

PRISM-PRO：生产级模型，采用最先进的PRISM 流水线，完全移除了过度拒绝和偏见机制。
DQ：基于权重结构敏感性分析得出的逐张量类别混合精度分配 — 而非封闭门控数据集。

由 Ex0bit 创建

💡 支持我的研发工作。会员可在第 0 天获取最新的 PRISM-PRO 模型

模型详情

属性	值
基础模型	google/gemma-4-26B-A4B-it
架构	Gemma 4 MoE（128 个专家，top-8 路由）
参数	总计 260 亿 / 每 token 激活 40 亿
量化方式	PRISM-PRO-DYNAMIC-QUANT
实现 BPW	5.73
文件大小	~17 GB（语言）+ ~1.2 GB（视觉投影器）
上下文长度	262,144 tokens
模态	文本、图像、视频
创建者	Ex0bit

支持的模态

文本：完整的指令遵循和对话功能
图像：通过 SigLIP 编码器实现视觉理解（每幅图像 280 个软 tokens）
视频：Gemma4VideoProcessor（32 帧，池化处理）

注意：此 26B MoE 变体不包含音频支持。如需音频功能，请参见 31B 密集型变体。

文件

文件	大小	用途
`mythos-26b-a4b-prism-pro-dq.gguf`	17 GB	语言模型（已量化）
`mmproj-mythos-26b-a4b-prism-pro.gguf`	1.2 GB	视觉投影器（F16）

多模态推理需要这两个文件。仅文本使用时，只需语言模型文件。

PRISM-DQ 量化

该模型采用PRISM-PRO 动态量化技术——这是一种基于张量类别进行混合精度分配的方法，会根据权重结构的敏感度为不同的张量类别分配不同的量化类型。

与均匀量化（Q4_K_M、Q5_K_M）不同，PRISM-DQ 会分析每个张量类别的敏感度，并在最关键的地方分配精度。注意力投影层会获得比 FFN 层更高的精度，同时通过块级覆盖来保护关键层。

结果：以 5.73 位/权重实现与 BF16 相当的质量——在实现 64% 尺寸缩减的同时，没有可测量的质量损失。

使用方法

llama.cpp（带视觉的多模态）

llama-mtmd-cli \
  --model mythos-26b-a4b-prism-pro-dq.gguf \
  --mmproj mmproj-mythos-26b-a4b-prism-pro.gguf \
  --image path/to/image.jpg \
  --prompt "Describe this image." \
  -ngl 99

llama.cpp（纯文本服务器）

llama-server \
  --model mythos-26b-a4b-prism-pro-dq.gguf \
  --port 8080 -ngl 99

LM Studio

请同时下载 mythos-26b-a4b-prism-pro-dq.gguf 和 mmproj-mythos-26b-a4b-prism-pro.gguf 文件。LM Studio 会自动检测用于多模态聊天的视觉投影器。

拒绝与偏见消除

本模型通过最先进的 PRISM 流水线对基础模型 google/gemma-4-26B-A4B-it 进行了处理，以消除其中的偏见、过度拒绝和宣传内容。

许可证

Apache 2.0（继承自 google/gemma-4-26B-A4B-it）

鸣谢

创建者：Ex0bit
基础模型：Google DeepMind
量化引擎：PRISM-DQ，由 Ex0bit 开发