HuggingFace镜像/Carnice-9b
模型介绍文件和版本分析

banner

Carnice-9b

本模型的成功离不开 Teknium(Nous Research)、Zachary Mueller(Lambda)的贡献。

Carnice-9b 是一款专为 Hermes Agent 框架优化的独立合并模型。

它基于 Qwen/Qwen3.5-9B 构建,但训练目标并非通用对话质量提升或排行榜竞争。其核心目标是优化 Hermes Agent 内部的行为表现:工具调用、终端使用、浏览器操作、多步骤执行,以及 Hermes 框架所需的精确消息格式。

本仓库是 kai-os/qwen35-hermes-stage2-adapter-v1 的直接加载合并 checkpoint 形式。它可作为独立模型加载,无需单独的 PEFT 适配器步骤。

重要说明:这是一个合并后的独立 checkpoint,并非从零开始的全参数训练模型。

训练方法

Carnice-9b 的训练分为两个阶段。

  • A 阶段:基于精心筛选的高信号推理数据进行推理修复训练。
  • B 阶段:基于框架原生轨迹和 Hermes 风格动作结构进行 Hermes 专用优化训练。

第二阶段是本次发布的关键。它并非教授通用外部工具模式,而是针对 Hermes Agent 环境本身的数据进行训练。

Hermes-Agent 专注优化

Carnice-9b 首要面向 Hermes Agent 设计。

其优化场景包括:

  • 终端密集型任务执行
  • 文件编辑与结构化工具使用
  • 浏览器及网络辅助代理行为
  • Hermes 运行时环境内的多轮工具调用
  • Hermes 原生对话与工具调用格式

训练过程中的一个主要设计约束是避免向模型灌输外来代理习惯,以免导致其在 Hermes 框架中表现异常。

数据

Hermes 专用阶段的训练数据主要来源于:

  • kai-os/carnice-glm5-hermes-traces
  • open-thoughts/OpenThoughts-Agent-v1-SFT

早期修复阶段使用较小规模的推理混合数据,主要包括:

  • bespokelabs/Bespoke-Stratos-17k
  • AI-MO/NuminaMath-CoT

本版本特意优先考虑框架原生行为,而非广泛的通用基准优化。

评估

该模型主要在 Hermes Agent 内部进行评估,而非通过通用的独立聊天基准测试。

主要评估重点是官方 Hermes 兼容的基准测试路径和原生测试工具运行。存在部分单次测试数据,但本卡片有意不将其作为核心内容。对于此版本,重要的是模型的优化目标:即 Hermes Agent 的执行质量,而非表面的基准测试表现。

使用方法

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_id = "kai-os/carnice-v1-9b-hermes-agent-stage2-merged"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

说明

  • 本版本专门用于 Hermes Agent 风格的使用场景。
  • 在完成更强大的 harness 原生评估之前,模型卡片有意简化了基准测试相关的讨论。
  • 训练过程中的补充诊断信息仍可在仓库文件中获取,但这并非本版本发布的核心内容。
下载使用量0