我为 Sao10K/L3-8B-Stheno-v3.3-32K 制作的 GGUF-IQ-Imatrix 量化版本。
Sao10K 携 Stheno 再度归来,这次的模型比以往更大、更出色!
建议访问他的页面获取反馈与支持。
[!IMPORTANT] 量化过程:
Imatrix 数据是基于 FP16-GGUF 生成的,并直接从 BF16-GGUF 进行转换。
此过程对磁盘空间和计算资源要求稍高,但希望能避免转换过程中的任何损失。
若要运行此模型,请使用 最新版本的 KoboldCpp。
如发现任何问题,请在讨论区告知我。
[!NOTE] 一般使用建议:
对于 8GB 显存 的 GPU,我推荐使用 Q4_K_M-imat(4.89 BPW)量化版本,可支持高达 12288 的上下文长度。预设:
一些兼容 SillyTavern 的预设可在 此处(Virt 的角色扮演预设) 找到。
可查看 此类讨论 获取其他推荐和采样器信息。
[!NOTE] 推荐阅读:
《哪种 GGUF 适合我?(个人观点)》—— Artefact2
点击图片查看完整尺寸。
[!TIP] 个人支持:
对于可能打扰您的体验,我深表歉意。
最终我或许能为此使用专用服务器,但目前希望这些量化版本能对您有所帮助。
如果您愿意且有能力...
您可以 在此处小额支持我(Ko-fi)。作者支持:
您可以在 作者自己的页面 支持他们。

训练计算资源由 Backyard.ai 提供 | 感谢他们以及 @dynafire 的帮助。
训练详情:
先在 8K 上下文长度下训练 -> 随后通过 PoSE 训练扩展至 32K 上下文长度。
数据集修改:
- 进一步清理角色扮演样本 -> 质量检查
- 手动检查并移除低质量样本 -> 提高基准质量下限
- 增加创意写作样本 -> 数量翻倍
- 重新制作并优化详细指令数据
注意事项:
- 本次训练的强度远低于之前的 Stheno 版本。
- 经测试,在 bf16 精度下使用文件中相同的配置时,该模型可正常工作。
- 我不清楚量化对其有何影响。
- 角色扮演表现相当不错。个人感觉体验良好。
- 它在长上下文理解和推理方面存在一些问题。不过,与通常的 rope 缩放相比,情况要好得多,这是一个优点。
- 提醒:这并非原生 32K 模型。它存在一些问题,但整体连贯且运行良好。
合理性检查 // 大海捞针测试结果:
- 这不像 RULER 或 NIAN 那么复杂,它只是一个基础的评估工具。部分不当的训练样本在大多数扩展上下文中的大海捞针得分范围从红色到橙色。

Wandb 运行记录:

相关 Axolotl 配置:
-> 取自 winglian/Llama-3-8b-64k-PoSE
- 我曾尝试寻找自己的配置,花了数小时进行调整,但他使用的配置效果最佳,因此我选择沿用。
- 在训练过程中,2M Rope Theta 相比其他值具有最佳的损失结果。
- 将 rope 设为 500K 也差不了太多,但 4M 和 8M Theta 会导致梯度范数(grad_norm)值恶化,即使损失下降很快。
- 混入预训练数据是件麻烦事。它使得格式问题变得严重得多。
- 预训练/噪声数据似乎也让大海捞针测试的结果变差了?结果并非全是绿色,主要是橙色。
- 不合适/错误的 Rope Theta 会导致梯度范数(Grad_Norm)激增到数千。它确实会下降到较低值,但即使有梯度裁剪,下降速度也快得令人不安。
sequence_len: 8192
use_pose: true
pose_max_context_len: 32768
overrides_of_model_config:
rope_theta: 2000000.0
max_position_embeddings: 32768
# peft_use_dora: true
adapter: lora
peft_use_rslora: true
lora_model_dir:
lora_r: 256
lora_alpha: 256
lora_dropout: 0.1
lora_target_linear: true
lora_target_modules:
- gate_proj
- down_proj
- up_proj
- q_proj
- v_proj
- k_proj
- o_proj
warmup_steps: 80
gradient_accumulation_steps: 6
micro_batch_size: 1
num_epochs: 2
optimizer: adamw_bnb_8bit
lr_scheduler: cosine_with_min_lr
learning_rate: 0.00004
lr_scheduler_kwargs:
min_lr: 0.000004