Carnice-9b

本模型的成功离不开 Teknium（Nous Research）、Zachary Mueller（Lambda）的贡献。

Carnice-9b 是一款专为 Hermes Agent 框架优化的独立合并模型。

它基于 Qwen/Qwen3.5-9B 构建，但训练目标并非通用对话质量提升或排行榜竞争。其核心目标是优化 Hermes Agent 内部的行为表现：工具调用、终端使用、浏览器操作、多步骤执行，以及 Hermes 框架所需的精确消息格式。

本仓库是 kai-os/qwen35-hermes-stage2-adapter-v1 的直接加载合并 checkpoint 形式。它可作为独立模型加载，无需单独的 PEFT 适配器步骤。

重要说明：这是一个合并后的独立 checkpoint，并非从零开始的全参数训练模型。

训练方法

Carnice-9b 的训练分为两个阶段。

A 阶段：基于精心筛选的高信号推理数据进行推理修复训练。
B 阶段：基于框架原生轨迹和 Hermes 风格动作结构进行 Hermes 专用优化训练。

第二阶段是本次发布的关键。它并非教授通用外部工具模式，而是针对 Hermes Agent 环境本身的数据进行训练。

Hermes-Agent 专注优化

Carnice-9b 首要面向 Hermes Agent 设计。

其优化场景包括：

终端密集型任务执行
文件编辑与结构化工具使用
浏览器及网络辅助代理行为
Hermes 运行时环境内的多轮工具调用
Hermes 原生对话与工具调用格式

训练过程中的一个主要设计约束是避免向模型灌输外来代理习惯，以免导致其在 Hermes 框架中表现异常。

数据

Hermes 专用阶段的训练数据主要来源于：

kai-os/carnice-glm5-hermes-traces
open-thoughts/OpenThoughts-Agent-v1-SFT

早期修复阶段使用较小规模的推理混合数据，主要包括：

bespokelabs/Bespoke-Stratos-17k
AI-MO/NuminaMath-CoT

本版本特意优先考虑框架原生行为，而非广泛的通用基准优化。

评估

该模型主要在 Hermes Agent 内部进行评估，而非通过通用的独立聊天基准测试。

主要评估重点是官方 Hermes 兼容的基准测试路径和原生测试工具运行。存在部分单次测试数据，但本卡片有意不将其作为核心内容。对于此版本，重要的是模型的优化目标：即 Hermes Agent 的执行质量，而非表面的基准测试表现。

使用方法

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_id = "kai-os/carnice-v1-9b-hermes-agent-stage2-merged"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

说明

本版本专门用于 Hermes Agent 风格的使用场景。
在完成更强大的 harness 原生评估之前，模型卡片有意简化了基准测试相关的讨论。
训练过程中的补充诊断信息仍可在仓库文件中获取，但这并非本版本发布的核心内容。