OmniCoder-9B 是由 Tesslate 开发的90亿参数编码智能体模型,基于 Qwen3.5-9B 的混合架构(门控Delta网络与标准注意力机制交织)进行微调。它在425,000+条精选智能体编码轨迹上训练而成,涵盖真实世界软件工程任务、工具使用、终端操作和多步骤推理。
训练数据特别源自Claude Opus 4.6智能体及编码推理轨迹,针对Claude Code、OpenCode、Codex和Droid的框架模式。该数据集包含来自Claude Opus 4.6、GPT-5.4、GPT-5.3-Codex和Gemini 3.1 Pro等模型的成功轨迹。
该模型展现出强大的智能体行为:能够从错误中恢复(先读后写)、响应LSP诊断,并使用适当的编辑差异而非完全重写。这些模式直接从其训练所用的真实世界智能体轨迹中习得。
</think>...</RichMediaReference> 推理链,用于复杂问题分解| 基准测试 | OmniCoder-9B | Qwen3.5-9B | Qwen3-Next-80B | GPT-OSS-120B | GPT-OSS-20B | GLM-4.7-Flash | GLM 4.7 | Claude Haiku 4.5 |
|---|---|---|---|---|---|---|---|---|
| AIME 2025(pass@5) | 90 | 91.7 | 91.6 | |||||
| GPQA Diamond(pass@1) | 83.8 | 81.7 | 77.2 | 80.1 | 71.5 | 73 | ||
| GPQA Diamond(pass@3) | 86.4 | |||||||
| Terminal-Bench 2.0 | 23.6 | 14.6 | 33.4 | 27 |
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "Tesslate/OmniCoder-9B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype="auto", device_map="auto")
messages = [
{"role": "system", "content": "You are a helpful coding assistant."},
{"role": "user", "content": "Write a Python function to find the longest common subsequence of two strings."},
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=2048, temperature=0.6, top_p=0.95, top_k=20)
print(tokenizer.decode(outputs[0][inputs.input_ids.shape[-1]:], skip_special_tokens=True))vllm serve Tesslate/OmniCoder-9B --tensor-parallel-size 1 --max-model-len 65536from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="token")
response = client.chat.completions.create(
model="Tesslate/OmniCoder-9B",
messages=[{"role": "user", "content": "Explain the difference between a mutex and a semaphore."}],
temperature=0.6,
)
print(response.choices[0].message.content)llama-cli --hf-repo Tesslate/OmniCoder-9B-GGUF --hf-file omnicoder-9b-q4_k_m.gguf -p "Your prompt" -c 8192所有量化版本:Tesslate/OmniCoder-9B-GGUF
| 基础模型 | Qwen3.5-9B |
| 训练方法 | LoRA SFT(r=64,alpha=32) |
| 数据集 | 来自5个来源的425K智能体轨迹 |
| 样本打包 | 样本打包,效率达99.35% |
| 硬件 | 4x NVIDIA H200(DDP) |
| 框架 | Axolotl |
| 精度 | bf16 |
| 优化器 | AdamW(学习率=2e-4,余弦调度) |
OmniCoder 继承了 Qwen3.5-9B 的混合架构:
Qwen3_5ForConditionalGeneration 构建| 参数 | 值 |
|---|---|
| Temperature(温度) | 0.6 |
| Top-P | 0.95 |
| Top-K | 20 |
| Presence Penalty(存在惩罚) | 0.0 |
对于智能体/工具调用任务,可考虑降低温度(0.2-0.4)以获得更具确定性的行为。
特别感谢 Axolotl 团队以及 axolotl#3453 中的讨论,他们帮助实现了 Qwen3.5 的样本打包支持。
@misc{omnicoder2025,
title={OmniCoder-9B: A Frontier Open Coding Agent},
author={Tesslate},
year={2025},
url={https://huggingface.co/Tesslate/OmniCoder-9B}
}由 Tesslate 打造