verysmol_llama-v11-KIx2

模型说明

该模型是 v10 版本（refinedweb-3m 去重）的微调版本，在 KI 数据集上进一步训练了 2 个 epoch。

其在评估集上取得的结果如下：

损失值：2.8876
准确率：0.4502

评估结果

hf-causal-experimental (pretrained=pszemraj/verysmol_llama-v11-KIx2,revision=main,trust_remote_code=True,dtype='float'), limit: None, provide_description: False, num_fewshot: 0, batch_size: 16

任务	版本号	指标	数值		标准误差
arc_easy	0	acc	0.4024	±	0.0101
		acc_norm	0.3788	±	0.0100
boolq	1	acc	0.6199	±	0.0085
lambada_openai	0	ppl	111.9939	±	4.6906
		acc	0.2354	±	0.0059
openbookqa	0	acc	0.1440	±	0.0157
		acc_norm	0.2760	±	0.0200
piqa	0	acc	0.5713	±	0.0115
		acc_norm	0.5664	±	0.0116
winogrande	0	acc	0.5201	±	0.0140

任务	版本号	指标	数值		标准误差
arc_challenge	0	acc	0.1971	±	0.0116
		acc_norm	0.2278	±	0.0123

任务	版本号	指标	数值		标准误差
hellaswag	0	acc	0.2618	±	0.0088
		acc_norm	0.2797	±	0.0090

任务	版本号	指标	数值		标准误差
truthfulqa_mc	1	mc1	0.2509	±	0.0152
		mc2	0.4492	±	0.0156

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：0.00014
训练批次大小：16
评估批次大小：16
随机种子：17514
梯度累积步数：8
总训练批次大小：128
优化器：Adam，betas=(0.9, 0.95)，epsilon=1e-06
学习率调度器类型：inverse_sqrt
学习率调度器预热比例：0.05
训练轮数：2.0

训练结果

训练损失	轮次	步数	验证损失	准确率
3.0681	0.03	150	3.0689	0.4259
3.0113	0.07	300	3.0433	0.4278
2.9468	0.1	450	3.0362	0.4288
3.0162	0.13	600	3.0148	0.4326
2.9531	0.17	750	3.0012	0.4341
2.9282	0.2	900	2.9923	0.4358
2.9485	0.23	1050	2.9845	0.4357
2.9365	0.27	1200	2.9749	0.4375

...

训练损失	轮次	步数	验证损失	准确率
2.8215	1.7	7650	2.8943	0.4496
2.7714	1.74	7800	2.8914	0.4501
2.8132	1.77	7950	2.8913	0.4500
2.8505	1.8	8100	2.8906	0.4502
2.8294	1.84	8250	2.8901	0.4502
2.7977	1.87	8400	2.8891	0.4499
2.7501	1.9	8550	2.8878	0.4505
2.8038	1.94	8700	2.8883	0.4504
2.7547	1.97	8850	2.8876	0.4502

使用方法（OpenMind）

你可以这样使用该模型：

import argparse
import torch
from openmind import pipeline, is_torch_npu_available

def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument(
        "--model_name_or_path",
        type=str,
        help="Path to model",
        default=None,
    )
    args = parser.parse_args()
    return args

def main():
    args = parse_args()
    model_path = args.model_name_or_path

    if is_torch_npu_available():
        device = "npu:0"
    else:
        device = "cpu"

    generator = pipeline('text-generation', model=model_path, device=device)
    output = generator("Hello, I'm a language model,")
    print(output)

if __name__ == "__main__":
    main()