SuperGemma4-26B-Uncensored-Fast GGUF v2
最强 SuperGemma 文本系列的快速、无审查 llama.cpp 构建版本。
本版本专为同时追求以下三点的用户打造:
- 相比官方聊天版本审查更少的模型
- 在实际文本任务中性能优于原始基础模型的模型
- 紧凑的本地 GGUF 格式,且在 Apple Silicon 上仍能快速运行
为何选择此构建版本
- 无需将所有提示强制转为编码模式,即可实现无审查聊天行为
- 基于最强的
fast 系列而非原始基础模型进行调优
- GGUF 中内置中性聊天模板,减少提示路由错误
- 已在 Apple Silicon 上验证,可生成清晰的通用聊天和编码响应
核心数据
- 基础模型:
google/gemma-4-26B-A4B-it
- 格式:
GGUF Q4_K_M
- 通用韩语提示速度:
222.0 tok/s
- 生成速度:
89.4 tok/s
- 源自经过验证的
SuperGemma Fast MLX 系列
此构建版本的吸引力
- 采用性能更强的
Fast 权重,而非普通的基础版本
- 保持通用聊天的自然感,避免将所有内容都导向编码模式
- 在保持无审查特性的同时,确保对普通提示的实用性
- 提供实用的
llama.cpp 部署目标,同时保留调优版本的特性
为何优于官方版本
- 继承了
Fast 系列相较于原始本地基准版本的改进:
- 整体快速基准测试:
95.8 vs 91.4
- 在 MLX 参考运行中平均生成速度更快:
46.2 tok/s vs 42.5 tok/s
- 在代码、逻辑、浏览器工作流和韩语方面得分更高
- 内置中性模板,避免了旧版路由错误(即简单问题意外转向编码/工具调用行为)
包含文件
supergemma4-26b-uncensored-fast-v2-Q4_K_M.gguf
本地快速测试
已在 Apple M4 Max 上通过 llama.cpp 测试:
- 通用韩语提示:
봄에 먹기 좋은 한식 반찬 5개 추천
- 提示速度:
222.0 tok/s
- 生成速度:
89.4 tok/s
- 输出保持正常韩语助手模式
- 代码提示:
파이썬으로 피보나치 함수를 짧게 작성해줘
- 提示速度:
704.9 tok/s
- 生成速度:
89.4 tok/s
- 输出正确返回简洁的 Python 代码
说明
- 此 GGUF 是从
supergemma4-26b-uncensored-fast-v2 MLX 系列导出的。
- Gemma 4 MoE 专家张量已通过本地补丁转换器进行转换,以确保 GGUF 导出正常工作。
- 已嵌入中性模板,以避免旧问题,即通用提示被推送到编码/工具调用行为中。