
Carnice-V2-27B 是基于 Qwen/Qwen3.6-27B 针对 Hermes 风格智能体追踪进行的全量合并 BF16 SFT 模型。本仓库包含独立的合并模型权重,而非仅提供 LoRA 适配器。
BF16 safetensors 已重新发布,并修正了 Qwen3_5ForConditionalGeneration 张量前缀。原始合并产物意外序列化了多余的 Unsloth 包装器前缀,导致直接使用 HF Transformers 加载时将真实权重报告为意外键,并随机初始化预期层。GGUF 文件未受影响,因为 GGUF 转换路径已对这些前缀进行了标准化处理。

| 指标 | Qwen3.6-27B 基础模型 | Carnice SFT |
|---|---|---|
| IFEval prompt strict, limit 20 | 85.0% | 90.0% |
| IFEval prompt loose, limit 20 | 85.0% | 90.0% |
| IFEval instruction strict, limit 20 | 90.0% | 93.3% |
| IFEval instruction loose, limit 20 | 90.0% | 93.3% |
| 留出的 assistant-token 评估损失 | 0.607 | 0.414 |
| 留出的 assistant-token 评估困惑度 | 1.835 | 1.513 |
基准测试产物包包含在 benchmarks/ 目录下。其中包括渲染图表、提取的 metrics.json、基准测试脚本以及用于生成图表的原始结果文件。
范围说明:IFEval 运行是一个简短的 limit=20 A/B 冒烟基准测试,而非官方完整排行榜分数。留出损失/困惑度是 SFT 脚本中精确的仅助手训练格式验证指标。原始 BFCL 两案例冒烟文件包含在内以确保可审计性,但它们规模过小,不足以作为模型质量声明的依据。
此检查点由恢复的 8K 分割窗口 Carnice 运行生成:
| 项目 | 值 |
|---|---|
| 基础模型 | Qwen/Qwen3.6-27B |
| SFT 框架 | Unsloth/PEFT LoRA,然后合并为 BF16 safetensors |
| 损失掩码 | 仅助手 token |
| 上下文/窗口化 | 8,192 token 窗口,1,024 token 重叠 |
| 窗口化前训练行数 | 3,473 |
| 训练窗口数 | 6,554 |
| 评估样本数 | 110 |
| 数据源混合 | 1,508 条 Carnice 数据行,1,015 条 DJLougen Hermes 数据行,950 条 Lambda GLM-5.1 Hermes 数据行 |
import torch
from transformers import AutoModelForImageTextToText, AutoTokenizer
model_id = "kai-os/carnice-v2-27b"
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForImageTextToText.from_pretrained(
model_id,
dtype=torch.bfloat16,
device_map="auto",
trust_remote_code=True,
)此模型旨在用于类 Hermes 智能体场景。在将其用于生产环境前,请通过您自己的智能体测试框架进行验证。