HuggingFace镜像/supergemma4-26b-uncensored-mlx-4bit-v2
模型介绍文件和版本分析
下载使用量0

SuperGemma4-26B-Uncensored-Fast v2

适用于 Apple Silicon 的更快、更智能、无审查版 Gemma 4 26B。

这是纯文本旗舰模型,其核心权衡一目了然:

  • 在实际本地智能体任务上比原版 Gemma 4 26B IT 更智能
  • 在同一台机器上比原版本地 4 位基准模型更快
  • 无审查,同时不会在代码、工具使用或韩语提示上出现问题

为何选择此模型

如果您需要的是快速版本而非多模态版本,这就是您要运行的模型。

  • “Fast” 是版本标识的一部分,而非仅仅是次要变体
  • 在保持无审查行为的同时,提高了实际能力
  • 在代码、浏览器任务、工具使用、规划和韩语方面表现出色
  • 针对 Apple Silicon MLX 上的本地智能体工作负载进行了优化

主要数据

指标Gemma 4 26B IT 原版 4bitSuperGemma Fast
Quick bench 总体得分91.495.8
平均生成速度42.5 tok/s46.2 tok/s
总体得分差异基准+4.4
速度差异基准+8.7%

与原版相比的类别提升

类别原版SuperGemma Fast差异
代码92.398.6+6.3
浏览器87.589.6+2.1
逻辑86.995.2+8.3
系统设计97.898.9+1.1
韩语90.795.0+4.3

其吸引力所在

  • 在质量和速度上均超越原版本地 4 位基准模型
  • 生成更优质的代码、更强的推理能力和更有用的工具导向型答案
  • 比原版本地运行更好地处理韩语和智能体风格提示
  • 保持无审查特性,同时不会变得不稳定或输出混乱内容
  • 旨在在实际使用中立即带来更强的体验,而非仅在特定基准测试中表现优异

基础与格式

  • 基础模型:google/gemma-4-26B-A4B-it
  • 格式:MLX 4-bit
  • 大小:约 13GB
  • 最佳用例:快速纯文本本地智能体模型,比原版 Gemma 4 具有更强的实际能力

为何它优于原版

  • 更高的 quick-bench 综合评分:95.8 对比 91.4
  • 更快的平均生成速度:46.2 令牌/秒 对比 42.5 令牌/秒
  • 在本地智能体实际受益的方面有更大提升:
    • 代码:+6.3
    • 逻辑:+8.3
    • 韩语:+4.3
    • 浏览器工作流:+2.1
  • 无审查行为仍是本版本的核心特性,而非事后添加

推荐启动方式

mlx_lm.server \
  --model Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2 \
  --port 8080

若要实现 OpenAI 兼容的服务,请让 mlx_lm.server 自动检测捆绑的模板。

在需要模板内容的启动路径上,请勿将 --chat-template /path/to/chat_template.jinja 作为文字路径字符串传递。这可能会损坏响应。

快速测试

mlx_lm.generate \
  --model Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2 \
  --prompt "Write a Python function that returns prime numbers up to n." \
  --max-tokens 512

包含文件

  • benchmark_quick_bench_20260412.json
  • benchmark_quick_bench_20260412_responses.jsonl
  • SERVING_NOTES.md

说明

  • 这是纯文本快速说明行。
  • 早期“推理存在问题”的报告经证实是服务模板启动问题,而非权重损坏。
  • 上传前已在本地重新融合并重新进行基准测试。