Carnice V2 27B

Carnice-V2-27B for Hermes Agent

Carnice-V2-27B 是基于 Qwen/Qwen3.6-27B 针对 Hermes 风格智能体追踪进行的全量合并 BF16 SFT 模型。本仓库包含独立的合并模型权重，而非仅提供 LoRA 适配器。

BF16 Transformers 加载修复

BF16 safetensors 已重新发布，并修正了 Qwen3_5ForConditionalGeneration 张量前缀。原始合并产物意外序列化了多余的 Unsloth 包装器前缀，导致直接使用 HF Transformers 加载时将真实权重报告为意外键，并随机初始化预期层。GGUF 文件未受影响，因为 GGUF 转换路径已对这些前缀进行了标准化处理。

基准测试

Carnice V2 benchmark card

指标	Qwen3.6-27B 基础模型	Carnice SFT
IFEval prompt strict, limit 20	85.0%	90.0%
IFEval prompt loose, limit 20	85.0%	90.0%
IFEval instruction strict, limit 20	90.0%	93.3%
IFEval instruction loose, limit 20	90.0%	93.3%
留出的 assistant-token 评估损失	0.607	0.414
留出的 assistant-token 评估困惑度	1.835	1.513

基准测试产物包包含在 benchmarks/ 目录下。其中包括渲染图表、提取的 metrics.json、基准测试脚本以及用于生成图表的原始结果文件。

范围说明：IFEval 运行是一个简短的 limit=20 A/B 冒烟基准测试，而非官方完整排行榜分数。留出损失/困惑度是 SFT 脚本中精确的仅助手训练格式验证指标。原始 BFCL 两案例冒烟文件包含在内以确保可审计性，但它们规模过小，不足以作为模型质量声明的依据。

训练

此检查点由恢复的 8K 分割窗口 Carnice 运行生成：

项目	值
基础模型	`Qwen/Qwen3.6-27B`
SFT 框架	Unsloth/PEFT LoRA，然后合并为 BF16 safetensors
损失掩码	仅助手 token
上下文/窗口化	8,192 token 窗口，1,024 token 重叠
窗口化前训练行数	3,473
训练窗口数	6,554
评估样本数	110
数据源混合	1,508 条 Carnice 数据行，1,015 条 DJLougen Hermes 数据行，950 条 Lambda GLM-5.1 Hermes 数据行

使用方法

import torch
from transformers import AutoModelForImageTextToText, AutoTokenizer

model_id = "kai-os/carnice-v2-27b"

tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForImageTextToText.from_pretrained(
    model_id,
    dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True,
)

此模型旨在用于类 Hermes 智能体场景。在将其用于生产环境前，请通过您自己的智能体测试框架进行验证。