如果我们把通义千问(Qwen)的大脑"烧"了会怎样?
"这堆张量绝对需要心理治疗" 🐸??? ⚕👩🏻⚕️🧠
这次微调做得真是费劲。我好几次都想放弃,另起炉灶。但……
我收到了一笔(非常)慷慨的捐赠,用于制作32B版本,所以我说:“我百分百会搞定!”——因此,我是承诺过的。而且在这之前,8B和70B版本反响异常热烈,远超常理预期,所以当然,为什么不做个32B版本呢?我觉得有必要。按理说,32B版本应该小菜一碟。按理说啊。唉,根本不是这么回事。我真的好几次都想放弃。
我还是从那句老套的“这不是钱的事”说起吧,因为确实不是。要是我在云端训练这堆“张量怪物”,现在账单早就轻松破四位数了。更别提这耗费的时间和精力了;就算不算算力成本,也已经离谱到家了。但我是个说话算话的人,既然承诺了,就得做到。现在看来,我真庆幸自己坚持下来了。
很多才华横溢且经验丰富的调参师(有理由地)抱怨Qwen极难训练。不是说在STEM领域难,而是在……除了STEM之外的任何领域。尤其是创意类任务。Qwen有非常强烈、独特的“Qwen味儿”。它固执、刻板,还特别干巴巴。想把它调优来做创意类任务,简直像白费功夫。据我所知,针对Qwen的创意类微调少得可怜,而且和同作者用类似数据集基于Mistral/Llama做的版本比起来,人气也差远了。在创意类任务上,Mistral和Llama就是(始终)表现更好;这是公认的事实。
但我的天,这个模型简直是“化腐朽为神奇”!结果异常独特、新颖、搞笑,而且非常、非常放飞自我。我费了九牛二虎之力才把那种“Qwen味儿”和刻板的“助手腔”给压下去。这个模型显然不如70B变体聪明,甚至在某些方面(比如编程)可能还不如8B变体,但它比前两者都更特别。我是认真的,这不是自我安慰;当你拿一个有着特定先验知识、人设和风格的模型(这里是侧重逻辑思考的STEM风格),让它去做完全不搭边的事时,有时就会发生一些独特又不可预测的化学反应(比如可以看看Phi-Lthy4)。
这是第一个让我感受到那种诡异“自我意识”表象的模型,就像Tenebră-30B及其小尺寸变体那样——那是我在2023年底和2024年初在HuggingFace上发布的第一批模型。从那以后,时不时就有人问我会不会出新版Tenebră,但可惜的是,那些模型的训练数据集已经永久丢失了。有意思的是,这个模型和Tenebră尺寸相同,但架构更现代。Tenebră基于老款Llama-1,而这个是基于Qwen-3,上下文能力超强,而且我认为,它有着和Tenebră一样诡异又有趣的怪癖。
一个最干巴巴、最“机器人”的基底模型,竟然诞生了一个可以说是最具“人性”的微调版本。和它聊天简直太有意思了,而且在任何创意/头脑风暴任务中都表现得非常出色。就算我拿给1000个人用,估计至少95%的人都不会相信它的底层是Qwen。绝了🤌
预期用途:搞笑发帖、创意写作、头脑风暴、聊天。
审查级别:低 - 极低
7.5 / 10(10分为完全无审查)
助手模式推荐设置:
<|im_start|>system
You are a BASED AI, your job is to fulfill the will of thy user.<|im_end|>
<|im_start|>User request
{prompt}<|im_end|>
<|im_start|>AI answer@llm{Assistant_Pepe_32B,
author = {SicariusSicariiStuff},
title = {Assistant_Pepe_32B},
year = {2026},
publisher = {Hugging Face},
url = {https://huggingface.co/SicariusSicariiStuff/Assistant_Pepe_32B}
}