HuggingFace镜像/LocoTrainer-4B
模型介绍文件和版本分析
下载使用量0
LocoTrainer

PyPI MODEL GGUF Colab GitHub

简介

LocoTrainer-4B 是一款拥有40亿参数的MS-SWIFT领域专家智能体,通过知识蒸馏技术从Qwen3-Coder-Next训练而来。与通用代码智能体不同,它将多轮工具调用与深厚的MS-SWIFT框架知识相结合,无需依赖单独的推理模型即可完成代码库分析并生成完整的Markdown报告。

演示

LocoTrainer Demo

LocoTrainer通过vLLM调用LocoTrainer-4B模型分析MS-SWIFT代码库

LocoTrainer-4B
基础模型Qwen3-4B-Instruct-2507
教师模型Qwen3-Coder-Next
训练方式全参数SFT(蒸馏)
训练数据361,830条样本(智能体轨迹 + MS-SWIFT知识 + 项目路径)
最大序列长度32,768 tokens
训练硬件8x NVIDIA H100 80GB
训练时间~25小时
开发框架MS-SWIFT

核心特性

  • MS-SWIFT领域专家:基于MS-SWIFT文档、CLI参数和项目结构路径训练,可准确解答框架相关问题
  • 工具调用智能体:生成结构化<tool_call> JSON,支持Read、Grep、Glob、Bash和Write工具
  • 端到端报告生成:从单一问题直接生成完整、结构清晰的Markdown分析报告
  • 长上下文支持:32K训练长度可覆盖90%的长文本分析场景
  • 本地化部署:提供GGUF量化版本,实现零API成本推理

快速开始

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "LocoreMind/LocoTrainer-4B"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

messages = [
    {
        "role": "system",
        "content": "You are Claude Code, Anthropic's official CLI for Claude.\n\nYou are an interactive agent that helps users with software engineering tasks.\n\nCRITICAL CONSTRAINTS:\n1. ALWAYS use absolute file paths in tool calls.\n2. EFFICIENCY: Use multiple tool calls to explore the codebase.\n3. OUTPUT: Save your findings as a well-structured markdown document.\n\nENV: Working directory is /Users/developer/workspace (macOS, zsh)."
    },
    {
        "role": "user",
        "content": "What are the default LoRA settings in ms-swift?\n\nAnalyze the codebase at /Users/developer/workspace/ms-swift and save your findings as a well-structured markdown document to /Users/developer/workspace/output/output.md."
    }
]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=1024,
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()

content = tokenizer.decode(output_ids, skip_special_tokens=True)
print(content)

LocoTrainer 框架

LocoTrainer-4B 旨在运行于 LocoTrainer 智能体框架 内部,该框架负责处理完整的智能体循环——工具执行、多轮对话以及报告生成。

pip install locotrainer

locotrainer run -q "What are the default LoRA settings in ms-swift?"
# → output/output.md

如需完整的设置和使用说明,请参考 GitHub 仓库。

训练详情

参数值
基础模型Qwen3-4B-Instruct-2507
教师模型Qwen3-Coder-Next
训练方法全参数 SFT
训练数据361,830 样本
数据构成智能体轨迹 + MS-SWIFT 知识 + 项目结构路径
硬件8x NVIDIA H100 80GB
DeepSpeedZeRO-2
精度BF16
训练轮次1
最大序列长度32,768 tokens
注意力机制Flash Attention 2
内核优化Liger Kernel
学习率1e-5,预热比例 0.05
批处理大小每 GPU 1,梯度累积 4(有效批大小 32)
模板qwen3_nothinking
框架MS-SWIFT
训练时间~25 小时

已知局限性

  • 专为 MS-SWIFT 设计;在无关代码库上的性能未经测试
  • 40 亿参数——复杂的多步推理可能需要更大模型
  • MS-SWIFT 项目结构知识反映训练数据快照;随着框架演进可能会出现偏差

许可证

MIT

致谢

  • Qwen 团队 提供 Qwen3-4B-Instruct-2507 基础模型
  • MS-SWIFT 提供训练框架及本模型专门优化的代码库
  • llama.cpp 提供高效的本地推理支持
  • Anthropic 其 Claude Code 智能体循环设计为本工作提供了灵感