[!Warning]
🚨 Qwen2.5-Math 主要支持通过 CoT 和 TIR 解答中英文数学问题。我们不建议将此系列模型用于其他任务。
2024 年 8 月,我们发布了 Qwen 系列的首个数学大语言模型系列——Qwen2-Math。一个月后,我们对其进行了升级并开源了 Qwen2.5-Math 系列,包括基础模型 Qwen2.5-Math-1.5B/7B/72B、指令微调模型 Qwen2.5-Math-1.5B/7B/72B-Instruct 以及数学奖励模型 Qwen2.5-Math-RM-72B。
Qwen2-Math 系列仅支持使用思维链(CoT)解答英文数学问题,而 Qwen2.5-Math 系列则扩展为支持使用 CoT 和工具集成推理(TIR)解答中英文数学问题。在中英文数学基准测试中,Qwen2.5-Math 系列模型在使用 CoT 时的性能较 Qwen2-Math 系列有显著提升。

尽管 CoT 在增强大语言模型的推理能力方面发挥着关键作用,但它在计算准确性以及处理复杂数学或算法推理任务(例如求解二次方程的根或计算矩阵的特征值)时面临挑战。TIR 能够进一步提升模型在精确计算、符号操作和算法操作方面的能力。Qwen2.5-Math-1.5B/7B/72B-Instruct 在 MATH 基准测试中使用 TIR 分别达到了 79.7、85.3 和 87.8 的分数。
transformers>=4.37.0。建议使用最新版本。[!Warning]
🚨 这是必须的,因为transformers从4.37.0版本开始集成了 Qwen2 的代码。
关于 GPU 内存要求和相应的吞吐量,请参考 Qwen2 的类似结果 此处。
[!Important]
Qwen2.5-Math-7B-Instruct 是一个用于对话的指令模型;
Qwen2.5-Math-7B 是一个基础模型,通常用于补全和少样本推理,是更好的微调起点。
如果您发现我们的工作对您有所帮助,欢迎引用我们的成果。
@article{yang2024qwen2,
title={Qwen2 technical report},
author={Yang, An and Yang, Baosong and Hui, Binyuan and Zheng, Bo and Yu, Bowen and Zhou, Chang and Li, Chengpeng and Li, Chengyuan and Liu, Dayiheng and Huang, Fei and others},
journal={arXiv preprint arXiv:2407.10671},
year={2024}
}