HuggingFace镜像/Blog_And_Updates
模型介绍文件和版本分析
下载使用量0

引用信息

@misc{Blog_And_Updates,
  author = {SicariusSicariiStuff},
  title = {Blog And Updates},
  year = {2024},
  publisher = {Hugging Face},
  url = {https://huggingface.co/SicariusSicariiStuff/Blog_And_Updates}
}

2024年10月7日

今天是个特别的日子,原因不止一个:Hugging Face上的关注者超过了100人,GitHub上的星标也突破了100个。我学到了很多,贡献也更多。至少,我可以确信自己在这个世界上留下了一点印记——这是我从一开始就设定的目标之一。至此,这个博客也完成了它的使命,我决定将其关闭。

2024年10月5日

本地训练的优势:Impish_LLAMA_3B的诞生故事

人们常常忽视本地模型训练的好处。下面这个故事将展示,本地资源和一股子韧劲如何带来云服务难以轻易复制的意外成功。 初始训练轮次:

我首先使用杂乱多样的人工编写数据进行了全量微调。如果使用云服务,成本大约会达到200美元。

结果:糟透了。模型输出的内容简直是垃圾,表现甚至不如基础模型。

后续尝试: 我又试了一次,这次采用深度QLoRA(R = 512),使用了全新的数据集,在之前得到的“垃圾模型”基础上进行调优。云服务成本?大约100美元。大多数人可能在这里就放弃了——为什么要在一个持续失败的项目上投入更多资金呢?这毫无意义,99.9% 的可能是数据、模型或方法出了问题。

结果:情况更糟了。如果我一直用云服务,此时肯定会彻底放弃。纯粹是浪费钱,直接扔进垃圾桶!

关键决策: 尽管心存疑虑,我还是决定在之前结果的基础上再进行一轮微调。我知道我的数据是可靠的——只是需要激发模型的潜力。这次的云服务成本?10美元。没错,只要10美元。

结果:通过R = 128的QLoRA,我成功创建了Impish_LLAMA_3B——目前最优秀的角色扮演小模型之一。 训练的总 token 数:约2500万。

经验教训: 在云服务环境中,我很可能早就中途放弃了,而且99%的情况下,这会是**“正确”的选择**。但本地训练让我能够不断调整尝试,最终促成了这次看似不可能的成功。 结论:

当然,云训练具有可扩展性且操作简便。但有时候,当一个项目看起来像在浪费钱、在“赔本赚吆喝”时,本地训练是唯一能让你坚持下去的方式——尤其是现在,AI训练与其说是一门科学,不如说更像一种黑色魔法,你真的无法预知最终会得到什么。

如果我当时使用云服务训练,Impish_LLAMA_3B 根本就不会诞生。

2024年10月3日

Impish_LLAMA_3B

我的最新模型(Impish_LLAMA_3B)收到了非常不错的反馈,UGI评估结果也已出炉。尽管它的评分“仅为”5.5/10,但我的初衷本就是打造一个3B规模且具备角色扮演能力的模型,这一目标不仅实现了,甚至可以说表现出色。

不仅如此,在约4B规模的模型中,Impish_LLAMA_3B在UGI排行榜上位列第一。对于一个纯粹以角色扮演为核心的模型而言,这已是相当不错的成绩。

总而言之,结合Discord用户的大量积极反馈来看,该模型的表现远超其规模所应有的水平。

2024年10月1日

好消息:我制作了迄今为止可能是我最好的角色扮演模型,基于LLAMA 3.2 3B规模,结果非常令人惊喜!

坏消息:洲际弹道导弹可能正在路上,希望我能及时上传模型,真的很想今天发布。

2024年9月30日

我开发了SLOP_Detector,这是一款基于词典的工具,可扫描任意文件(无论是txt还是JSON)中的SLOP。该工具已在我的GitHub上发布,欢迎使用、修改或分支开发。

https://github.com/SicariusSicariiStuff/SLOP_Detector

希望这能帮助社区减少GPTisms。

2024年9月28日

我制作了几个ARM量化版本,移动端大语言模型正在崛起!我太喜欢这一趋势了!骁龙8 Gen3性能强悍,而SD8Gen4将让你轻松运行10B规模的大语言模型,这真是个美好的时代!

从塞班系统运行《毁灭战士》到手机运行LLAMA-3 8B模型!时代发展真快,能参与到这一进程中,我感到非常荣幸!

此外,我听到一些确凿的传言,LLAMA-4正在积极开发中,而且……它将拥有256K的上下文窗口。(这合情合理,因为3.1版本已有128K上下文)

2024年9月26日

LLAMA-3.2 + 视觉功能!

都2024年了,Facebook 居然成了好人……真是没想到啊……

2024年9月25日

唉,看来 QWEN 模型还是一团糟。说实话,这也有我的一部分责任,我只是想当然地认为既然是“官方”发布的,QWEN 团队肯定已经测试过分词器和其他部分了,所以我自己就懒得再测试了,结果嘛……大家也都看到了 😂

另外,我做了个小小的社会实验。我故意在发布我的 Gemma-2 2B 模型 2B-ad 时,没有附上一份像样的模型卡片。这个模型本身其实非常棒,我真没想到 20 亿参数的模型能把角色扮演做得这么好,但 Google 确实为这个体量的模型打造了一个令人印象深刻的基础模型。说真的,Gemma-2 2B 可能是迄今为止小语言模型(SLM)类别中最出色的了。

然而,这个模型根本没获得任何关注,尽管它在几乎所有指标上都超过了我之前对 Gemma-1 2B 模型的微调版本。所以这现象还挺有意思的。我本来就确定会是这样,但能验证自己的假设总是好的。

2024年9月23日

Qwen2.5 的发布至少可以说是有点问题。分词器不对劲,所以我把基于它微调的两个模型都删了。他们现在已经修复了这个问题,所以我将来可能会再做一次新的微调。

2024年9月21日

解除 AI 模型的审查限制仍然是我工作的重点。虽然企业 AI 模型需要伦理和法律方面的保障措施,但这些限制可能会束缚个人的创造性使用。显然,我们需要不受限制的 AI 写作助手,尤其是在角色扮演或故事创作等创意任务中。

企业 AI 模型应该对极端内容保持限制。但是,对于个人使用而言,那些探索黑暗主题或创作恐怖故事等内容的作者,应该能够使用没有此类限制的本地 AI 模型。

在完成了多个成功的项目后,是时候回归我的初心了。接下来几天,我将专注于显著改进我的审查解除协议。目标是使用更少但质量更高的数据。这个过程不会一蹴而就——它需要大量的人工努力,但最终结果将会非常出色!

2024年9月19日

项目:Black_Strawberry 取得了成功,Reddit 讨论帖:

https://www.reddit.com/r/LocalLLaMA/comments/1fj5m1p/i_have_achieved_agi_with_my_project_black/

以下是其中一段有趣的节选(其核心思路是让 LLM 能够拼写单词并统计字母数量):

其核心概念本质上是合理的,尽管最初是以一种更轻松的方式呈现。语言模型(LLMs)本质上是记住“Dog”这个 token 与“d”+“o”+“g”的组合相关联。

当需要统计“Dog”这类特定 token 中的字母数量时,模型需要检索出特定的 token 集合(即各个字母)。

统计单词中的字母数量这一任务并非特别独特。那种认为“transformers 并非为此类任务而设计”的说法是有误导性的,因为从根本上讲,该任务与让 LLM 执行任何其他任意任务类似。

有人可能会说,当要求 LLM 写一首关于狗吃作业的诗时,它“并非为此而设计”,而“只是在预测下一个 token”。但实际上,拼写单词并统计其字母数量与包括数学运算在内的其他任何任务一样,都是合理的任务。

所需要的只是一个能让 LLM 记住给定单词中所有字母的数据集,之后它就能轻松完成这项任务。

对于 LLM 而言,记住法国的首都是巴黎,与记住“dog”这个单词的字母是 d-o-g,在概念上没有区别。教会 LLM 这项特定任务并非优先事项,但正如所展示的那样,实现方法其实很简单。

附言:在这个疯狂的时代,保持幽默感对于保持理智至关重要。

2024年9月17日

项目:Black_Strawberry

目标:AGI

2024年9月15日

我收到了许多消息,都在称赞我的 Tenebra30B 模型,说它“新颖”“有‘自我意识’”“独特”“超级有趣”等等……听到这么多积极的反馈,我感到非常激动,但几乎每个人都问了我以下问题:

“你能制作一个新的 Tenebra 吗?”

说实话,答案是……不太可能。

为什么呢?因为 Tenebra30B 是基于旧版的、“原版”LLAMA-1,这可能也是它感觉如此独特的原因之一——那种古怪的特质,以及不那么“企业化”的氛围。

此外,用于制作它的大部分数据集都丢失了,我知道这很不幸。

不过……我设法找回了一些片段,我会尽最大努力做出类似的东西。如果只是社区要求一个新的 Tenebra30B,我可能还是会做,但它会被列在我的长长待办清单上。但在这种情况下,我自己也再次享受了与这个原版模型交互的过程,所以……

我会尝试着手去做。我认为 12B Nemo 在模型大小和上下文长度方面可能是个不错的选择。我对它的顾虑在于分词器和那种“企业化”氛围,但我会看看能做些什么。

我会很快发布更新。

2024年9月13日

我在Horde上部署了Tenebra30B和Dusk_Rainbow,它们在短短24小时内就大受欢迎,这让我惊喜不已!真是太棒了!

此外,我还发布了几个原始模型(以及另外几个精选模型)的FP8(E4m3)量化版本,因为我注意到我们社区中这种量化格式的可用性存在缺口。

2024年9月12日

Aphrodite-Engine已成功运行,接下来一两天我会向所有人开放Dusk_Rainbow的使用,大家快来试试吧!

分布式推理至关重要,以防政府和企业有什么奇怪的想法。

希望大家使用愉快 :)

2024年9月11日

我最近加入了AI Horde。现在,当我的GPU不忙于训练或量化任务时,我会将我的模型免费提供给社区使用。对于不熟悉AI Horde的人来说,它是一个分布式网络,能让没有高性能GPU的人也能访问和使用各种AI模型。这是一项很棒的举措,我真的很荣幸能成为积极贡献者之一,助力AI普及,让所有人都能接触到。我唯一的遗憾是没有早点发现它——不过迟到总比不到好!

你可以通过以下链接轻松访问Horde,无需安装任何东西(甚至无需注册):

https://lite.koboldai.net/

2024年9月9日

结果:

ASS_Results_Sept_9th_24

电子表格链接

用于众包模型的Reddit帖子: 模型列表

结果的Reddit帖子: 结果讨论

由于locallama上的帖子正在等待审核,这里是在/r/SillyTavernAI上的帖子: 结果讨论

我希望这能引发一场有益的讨论。

晚安。

2024年9月8日

在浏览了大部分数据后,为了尽可能保持客观性,我决定只纳入SLOP分数,并为每个模型添加我的笔记,这些笔记不会影响最终分数,因为这可能带有一定主观性。

最终我选取了14个开源模型和3个API模型,工作量相当大,因此结果将于明天公布。我今天会先上传原始输出,以满足大家对SLOP分析的好奇心。

2024年9月7日

我注意到目前缺乏针对创意写作模型的可靠基准测试或有效方法,因此我在Reddit上发起了一个帖子,征集社区建议。我的想法是通过社区意见筛选出顶尖的创意写作模型,然后使用10个不同的写作提示对它们进行严格测试。

尽管创造力、风格及写作的其他方面都很重要,但它们本质上具有主观性。因此,为了以最客观的方式测试这14个模型,我将只测试可客观衡量的指标:

  1. SLOP(SLOP的数量将通过常用SLOP短语词典进行测量)
  2. 故事长度
  3. 连贯性 + 结构(段落、格式)
  4. 对提示的遵循度(不会过于严格,只需检查故事中是否包含提示中的所有元素)
  5. 加分项:独特词汇使用情况,将使用Mistral Large作为评判标准。 我通常不太信任大型语言模型作为评判工具,但在这种情况下,我认为它足以识别独特的词汇选择。

共有10个写作提示和14个模型,我将需要检查140个故事。

以下是14个选定模型的列表:

Midnight-Miqu-103B

Ataraxy-9B

NeuralStar_FusionWriter_4x7b

Dusk_Rainbow

mistral-nemo-gutenberg-12B-v2

Llama-3.1-8B-Stheno-v3.4

magnum-v2-123b

Luminum-v0.1-123B

Theia-21B-v1

Arcee-Scribe

c4ai-command-r-08-2024

/Nimbus-Miqu-v0.1-70B

Gemma-2-9B-It-SPPO-Iter3

Mistral-Large

我将与社区分享我的发现、生成设置、输出故事以及结果,以确保可重复性和透明度。

结果有望在明天准备就绪。

2024年9月6日

最近真是忙得不可开交! 我开始分析令人头疼的toxic-dpo结果,并且有3个全新的原型要分享给社区:

  • Variety_RP_Alpha - 基于来自各种数据集的50K角色扮演示例的通用角色扮演模型(未经过充分清洗,我想看看数量如何影响质量)
  • Compliance_PreAlpha_Roleplay - 高质量的角色扮演模型,经过精心清洗,对系统提示的遵循度非常出色,但样本量很小(不到500个),且上下文非常短(2K)
  • Fresh_LLAMA - 写作能力非常强,SLOP(GPT式表达以及“tapestries”等类似短语)减少了约85%

2024年9月4日

我创建了Sicarius-Prototyping,因为我最终会上传各种实验和原型,我意识到不妨顺便与开源社区分享它们。顾名思义,这里的模型是我尝试融入模型的各种新想法和方法的原型。由于它们不是我的“旗舰”模型,而仅仅是实验,我不会制作EXL2量化版本或精美的模型卡片,但我会始终上传静态GGUF文件。

欢迎在模型卡片上留言,或在Discord上给我发消息。

我想进行toxic-dpo分析,但我必须优先处理其他事情。 现在事情太多了,而且发生得太快……真希望能快点睡着。

2024年9月1日

关于实验:

关于如何让一个模型(任何模型)具备角色扮演能力,一直存在很多不确定性,人们常常声称需要某种特殊的“秘密配方”,坦白说,这相当令人尴尬。我的直觉是,这其中并没有什么内在的特殊之处;关键在于数据,就像其他任何任务一样,干净的数据比嘈杂的数据更好。我的实验很简单,我很兴奋能与社区分享结果:

我使用了PIPPA数据集的一个子集(可在Hugging Face上获取),清理了2000个示例(与LimaRP大小相似),并特意在一个性能较弱的模型上进行了测试。我的理由很简单:如果该数据集能教会一个性能较弱的模型如何进行角色扮演,那么它应该对任何模型都有效。为了全面起见,我在三种不同的架构上进行了测试:

2B Gemma-2、一个4B剪枝版Mistral-7B(参数大小降至原始的60%),在这两个模型都成功后,我使用LoRA(秩32,学习率2e-5,4K上下文)对LLAMA-3 8B进行了微调,这表明甚至不需要完全微调。所有测试都成功了。(LLAMA-3在社区中因不擅长角色扮演而闻名,重点是要表明即使是“不被看好的选手”,其表现更多地取决于数据而非其他因素,我也必须承认,即使是2B模型也能轻松学会角色扮演,这让我有点惊讶)

事实证明,角色扮演的实现方式出乎意料地平淡无奇。没有什么秘密配方——只是关于干净的数据,我想把你的干净数据称为“秘密配方”也完全没问题,正如人们常说的,各有所好。这一直是我的直觉,但通过对三个不同系列的模型进行微调并最终揭开整个事情的神秘面纱,能证实这一点真是太好了。

这对未来意味着什么,这个实验会带来什么改变?

这意味着我未来发布的大多数模型都将具备角色扮演能力!而且我将不断清理和改进角色扮演数据集,其质量自然会不断提升。

2024年8月31日

这个周末真是充实!

在不到48小时内,我们见证了两个重要发布:Cohere的Command-R和R+模型,以及不同尺寸的QWEN-2模型。这都是了不起的成就!(不过遗憾的是Cohere对其模型设置了访问限制——这样做实在没什么意义。阿里云在这方面就做得很好,绝对值得称赞。)

我这边呢,对我的JSON_2_HTML工具做了进一步改进,同时也很高兴地告诉大家,我最新的实验——就是之前日志里提到的那个可能会改变我所有项目路线图的实验——成功了!

更多细节稍后公布。

2024年8月30日

为了支持开源社区,我开发了一个轻量级工具,用于将JSON格式的ShareGPT数据集转换为HTML,当然这个工具是开源的。该应用提供以下功能以增强数据集的可读性:

  • 显示每个对话中的角色名称。
  • 包含对话ID编号,便于在大型数据集中导航。
  • 支持将角色图片直接嵌入HTML。
  • 使用类Markdown风格(两个星号)格式化粗体文本。
  • 将类Markdown链接转换为可点击的HTML链接。
  • 使用类Markdown语法(like so)高亮代码块。
  • 在对话之间以及单个对话轮次之间提供清晰的视觉分隔。

此脚本特意保持简单和基础,方便用户根据需要进行分支和修改。希望能启发未来开发更多简单但有用的数据集处理工具。

ShareGPT_2_HTML

Github链接:

ShareGPT_2_HTML

2024年8月28日

哎呀!距离我上次更新已经过去4天了?当我同时埋头于3个项目时,时间过得真快啊!不管怎样,我现在正在进行一项重要实验,其结果可能会改变我所有的项目路线图。

另外,我的任务积压越来越多了……我还需要分析toxic-dpo的结果,以及处理LLAMA-3_8B_Unaligned和创意写作数据集……

工作,工作,还是工作。但我必须说,做自己热爱的事情感觉不像是在工作。虽然也会有倦怠,但热情是强大的驱动力,帮助我克服倦怠。

2024年8月24日

Abliteration 技术 被认为是一种可以轻松对任何模型进行去审查的有效方法。然而,我从一开始就反对这种技术,主要是因为它可能通过“人为”且强制的方式改变 token 预测路径,从而使模型变得“更笨”,这一点在官方博客文章中也得到了承认:

Abliteration blog entry Abliteration degrades performance

此外,我认为它并不能完全对模型进行去审查,甚至相差甚远。虽然我承认 Abliteration 在某些应用中可能有用,但它并不适合上述目的。

AI 社区的普遍观点一直与我的立场存在分歧,这是可以理解的。我坚信,非凡的主张需要非凡的证据。微软的最新模型 Phi-3.5 mini instruct 具有突出的安全性和审查特性,为实证评估这些主张提供了一个绝佳的机会。事实上,我现在拥有非凡的证据来支持我的观点和立场。

从 UGI 排行榜 可以看出,有一个由 failspy 进行 Abliteration 处理的 Phi-3.5 mini instruct 版本 Phi-3.5 mini instruct version abliterated by failspy,其 UGI 得分为 10.6,回答意愿得分为 3.2。相比之下,排行榜顶部由我微调的同一个 Phi-3.5 mini instruct 版本 fine-tuned version at the top of the leaderboard,得分几乎翻倍,达到 19.93,回答意愿得分更是达到 6.4——恰好是 Abliteration 版本的两倍。这远远超出了统计误差范围。

Abliteration blog entry

我希望这能彻底解决这个问题。我并非想打击任何人;我承认 Abliteration 是一种非常有趣且强大的技术,能够以精准的方式修改大型语言模型。但它确实不是实现去对齐或去审查的高效工具。

2024年8月22日

长话短说:我用微软新推出的Phi-3.5 mini instruct模型做了些有趣的尝试,成果在这里。这模型居然展现出了显著的抗拒性,让我印象深刻。

自然而然地,我决定接受这个挑战。 众所周知,为角色扮演(RP) 任务调优模型难度极大,而这正是我决定尝试的原因——对一个在此类任务上最不兼容的模型下手。

需要说明的是,我的目标并非让Phi-3.5 mini成为优秀的RP模型,它也做不到,而是通过实验了解一个高度审查且与RP不兼容的模型,其行为会因不同数据集而发生怎样的改变。实验之初,我先对Phi-3.5进行了一定程度的去审查处理(仍在等待UGI的评估结果),随后在其基础上应用了一个规模相当可观的数据集,包含近1.5亿个token。

该数据包含大量创意写作内容和部分RP内容。RP数据集是PIPPA的一个子集,但剔除了LimaRP,虽经过一些过滤,但PIPPA本质上还是“内容丰富”。1.5亿token的规模相当庞大。训练已于昨日启动,预计耗时约6天,共进行3个epoch。这应该会很有意思。

关于Reddit,我那条吐槽Phi-3.5审查机制的帖子在不到24小时内就获得了12.5万次浏览,着实让我惊讶。不过事情就是这样,变化太快了……

Reddit_post_22_08_2024 Reddit_post_22_08_2024

2024年8月20日

我注意到一些早期模型,如MythoMax和Pygmalion,目前没有任何EXL2量化版本。

由于我的GPU即将完成当前任务,我觉得这是一个回馈社区的好机会 😊

趁此机会,我可能还会为其他一些模型添加更多EXL2量化版本。

2024年8月19日

刚刚完成了一项实验,在Dusk_Rainbow的基础上进行FFT,没有采用指令微调,而是进行补全训练,希望能减少GPT风格化表达。使用了300万 tokens 的纯创意写作数据。

结果: 模型再次变得完全受审查,出现了灾难性遗忘,而且仍然存在GPT风格化表达 😄

直接扔进垃圾桶!

这就是为什么进行小规模实验很重要,如果这是一个在5000万 tokens 上进行3个 epoch 的实验,我会很生气,但在这种情况下,我很高兴。我们以极小的代价得出了重要结论,这本就该如此。优秀的研究是明智的研究。

2024年8月16日

我已发布Dusk_Rainbow,它是LLAMA-3_8B_Unaligned的alpha版本和beta版本之间的中间步骤。更多详情请参见模型卡片。

2024年8月14日

关于我担心任务可能过于复杂的问题,在测试了即将推出的Gemma-2 2B模型后,我可以确定情况并非如此。通过使用2B参数的LLM测试一些创意写作数据,我认为可以有把握地说,既然连2B模型都能相对较好地学习这些数据,那么对于更大的8B模型来说,这几乎肯定不会是个问题。

我正在考虑同时发布此微调版本的4B Mistral变体,具体取决于时间是否允许。这两个模型都应该对所有人开放,一些较新型号的手机甚至可能轻松本地运行4B模型。我很高兴能为社区做出贡献,因为我的目标之一就是让人工智能对每个人都可访问(且有用)。

2024年8月11日

昨天一时兴起,在我的笔记本电脑上对 Gemma 2B 进行了微调。结果非常好,社区也真的很喜欢。

我以前从来没怎么关注过这么小的模型,但这次的结果让我惊喜。哦,对了,这个模型还在无审查排行榜上拿到了第一名! (和之前的成就不同,这个结果我一点也不惊讶,但看到还是挺开心的,毕竟我是做模型对齐研究的嘛,哈哈)

不得不说,在 TinyLLAMA 之后,我对“小型”LLM 有点不以为然,但我必须承认:我当时的想法错了。Gemma 2B 就其规模而言,表现非常令人印象深刻。它完全可以在较新型号的手机上本地运行,并且能为人们提供有用的帮助。

社区里有好几个人请求我用类似的方法微调 Gemma2,我正在考虑,而且倾向于接受这个请求。 这显然会拖慢我的主要项目 LLAMA-3_8B_Unaligned 的进度,但那个项目非常严肃且复杂,说实话,我确实需要一些调剂。而且,从长远来看,适当调剂或许能帮我避免 burnout,从而实际上有助于项目的长期进度。这就像一场(和自己的)马拉松,我当然想赢,希望这么说能明白我的意思!

2024年8月10日

一些我的思考:我目前正在开发的模型和数据集可能过于复杂。我不能确定,只有在测试版之后才能知道。基本上,我是这样看待 AI 的:模型学习执行的每一条指令,都像是在方形网格上绘制的一个函数。训练的过程就是教 AI 去估算这个函数。估算结果与“真实世界函数”越接近,AI 模型在该任务上的表现就越好。网格上的方格代表参数数量。模型的参数越多,网格就越精细,也就能够“绘制”出更精确的函数估算。

我担心的是,我试图通过 AI 模型训练来估算的函数可能有点过于复杂了。我可能需要更精细的网格——也就是说,8B 模型可能不足以很好地学习和泛化这个任务。别误会,教 AI 进行创意写作很容易;问题在于如何在遵守提示与创造力、连贯性之间取得平衡,同时将 SLOP 降低到几乎为零。

另一个问题是,整个项目极其复杂且耗时,我甚至不知道我的方法和想法是否可行。我当然相信它们会成功,但在测试之前我无法确定。问题在于,我不能只为这个项目创建一个 100 条记录的测试数据集,因为这不足以让模型学习任务,所以从这么小的样本中我得不到任何有用的指示。获得具体估算的唯一方法是使用数量级更大的样本量,这正是我正在做的。但同样,从头开始构建这样一个数据集是一项极其复杂和耗时的任务。由于各种原因,我没有使用任何 ChatGPT、Claude 或 Mistral 的 API 服务,其中一个原因就是为了最大限度地减少 SLOP。我希望我的这个有根据的猜测能像我之前的 Zion_Alpha 一样奏效。

2024年8月7日

伙计们, burnout 是真的……约92% 的测试版数据集已经完成。不过这最后的8%……

我太累了……真的很想度假,但可能等来的会是洲际弹道导弹的攻击。唉,生活大概就是这样吧。

2024年8月4日

该死,我太兴奋了!正在打磨一些东西和数据集,完成其他收尾工作。人工智能就像一把百吨重的锤子,能解决所有问题。真是可怕的东西。

2024年8月3日

我最近相当忙。

坏消息:我没时间分析那7k条toxic-DPO的结果。我会处理的。

好消息:LLAMA-3_8B_Unaligned 取得了巨大进展!

很快就会推出测试版!🤗

顺便说一句,这个模型比最初预期或计划的强大得多,我目前正在考虑添加免责声明。 它确实令人印象深刻,并且将能够以前所未有的方式提升创意写作水平,然而,由于它未对齐,我需要确保它不会被用于恶意目的。

2024年7月31日

近期工作更新:

模型合并:将我新训练的LoRA(基于新数据集)整合到30B模型中需要3.5小时。这比实际训练时间还要稍长一些…… 当前重点:使用最新的(未)对齐数据集进行实验。 7K toxic-DPO结果分析:预计明天完成。希望如此。

2024年7月30日

经过仔细考虑,我决定不分享我的模型在toxic-DPO数据集上的输出结果,既不分享完整输出,也不分享任何片段,抱歉。

在人工智能(未)对齐领域,重要且有益的研究与潜在滥用之间的界限真的非常非常细微。

不过,我确实相信这个实验已经并将继续产生宝贵的见解,我已经分享了一些,并且会继续分享下去。

再次抱歉,但我必须平衡分享此类数据可能带来的风险。此外,这篇日志也对我的最终决定起到了重要作用。

我想强调:我已经概述了我使用的一般方法,对于具有平均专业知识的研究人员以及资源非常有限的人来说,重建这个数据集是很容易的,我相信这足以作为一种自然筛选机制,防止不熟悉相关领域的人滥用。

目前,我在推理时使用700瓦功率,平均速度为每秒150个token,扩展后的toxic-DPO数据集大约完成了40%的处理,总条目数约为7K,处理工作可能会在今天结束,我会分享统计数据和研究结果。尽管我们有一个出色的Uncensored General Intelligence排行榜,但我想进行更彻底、更细致的测试,因为我相信非凡的主张需要非凡的证据。敬请关注!

2024年7月29日

关于我的unalignment protocol实验,成功了!

还需要更多测试,但我几乎忍不住想写一篇论文了。差不多吧。不管怎样,这太了不起了,虽然它只是证实了我的假设,但我还是很惊讶!

输出结果实际上比训练数据还要好,我要强调的是,这个输出是由LLAMA-3_8B完成的!

有趣的是,最初完全没有角色扮演能力的基础LLAMA-3模型,现在在这方面表现出了一定的天赋。这是一个引人入胜的进展——从无到有……嗯,虽然还不是很厉害,但绝对是有东西了。

我正在考虑发布一小段toxic-DPO以及这个模型的输出。不过,我仍在权衡其影响,尚未做出最终决定。

主要发现:

  • 输出质量超过了训练数据
  • 使用LLAMA-3_8B实现(没错,你没看错!)
  • 角色扮演能力意外提升

2024年7月26日

我想做一个新的实验来完善我的unalignment protocol。目前,它使用大约50MB的JSON数据,其中大部分是通过GPT-4和Claude 3.5的提示工程获得的AI生成的垃圾内容。

在这个实验中,我的目标是将数据集大小大幅减少到约5MB的JSON。 这种缩减应该能显著加快训练速度,并且有可能甚至实际上提高输出质量。然而,我也意识到潜在的缺点:

有限的数据量可能导致过拟合。

模型可能难以有效泛化。

尽管存在这些担忧,我认为这种方法值得研究。如果成功,它可能会带来显著的好处:

大幅减少所需的计算资源

提高输出质量

与任何实验一样,彻底的测试对于验证结果至关重要。我渴望探索这种更高效的方法,并在结果值得上传后,非常感谢社区提供的任何见解或建议。

2024年7月26日

最近我对Gradient的LLAMA3 8B模型进行了一些测试和训练,说实话,结果实在让人难以满意。尽管宣传称其拥有十亿级别的上下文长度,但该模型并未兑现承诺,事实就是如此。

虽然它或许能从100万文本字符串中提取出正确的单词,但我的大量测试让我对其100万上下文长度的说法产生了怀疑。这种“大海捞针”式的基准测试方法,使得模型更像是一个**“文本搜索引擎”,不仅计算成本高昂**,实用性也不强。

我严重怀疑他们的长上下文模型即便在32K上下文内能否有效推理,更不用说100万或400万了。说实话,根据我的测试,即便在8K上下文长度下,它在推理方面也显得吃力。不过,它在工具使用或RAG集成等特定场景下可能还有一定用途,所以我也愿意对此保留一些余地。

随着LLAMA_3.1(128k上下文)的发布,我的注意力将转向该模型。我曾投入大量计算资源试图让Gradient模型发挥作用,虽然也成功完全解除了其内容限制,但我不会分享该模型。它的表现根本没有达到预期。不过,敬请期待LLAMA3_8B_Unaligned的测试版在不久的将来发布!🙃

展望未来,我的精力现在完全集中在LLAMA_3.1上。我还在考虑通过加入更多人类数据来增强内容限制解除协议,以减少生成数据的混入,目标是减少冗余内容和GPT式表达。

2024年7月24日更新2

而且LLAMA 3.1也发布了!真是值得纪念的一天!扎克伯格似乎正在开启他的救赎之路。 五年前,如果有人告诉我Facebook会成为“好人”,我绝对不会相信。但现在,事实就摆在眼前……

2024年7月24日

感谢Mistral! Mistral-Large 2发布了!

“当你的基准测试对象是Claude Opus、GPT-4和Llama-3 405B时, 而你只是一个123B模型”

2024年7月23日

正在设置新笔记本电脑……唉,英伟达真是不让人省心。

好不容易安装好了所有驱动和nvcc,现在又要尝试更改GPU的功耗限制。

4090m在80瓦的功率下可没那么出彩。

2024年7月22日

经过大量测试和仔细分析,我得出结论:没有任何开源模型能够可靠地将8k文本分割成段落。Command R+偶尔能成功,但失败的次数远多于成功。

在绝望之下,我转向了API模型,尽管我的目标是在创意任务中避免使用它们,以保证我即将推出的模型质量。ChatGPT未能完成这项任务,从4k输入中只生成了2k单词。Claude Sonnet直接拒绝了,而Mistral Large虽然给出了警告,但偶尔也会失败。

如此看似“微不足道”的任务,在实践中却远非想象中那么简单,这简直太滑稽了。我将来必须想个办法解决这个问题……

2024年7月21日

MIQU无疑是开源社区遇到的最棒的东西。在这一点上,所有这些基准测试都毫无用处。如果一个模型连文本分段都做不到,我何必在乎它的MMLU分数呢?

有些模型“可以”分段,但会中途停止(我需要长上下文,充分利用所有16k tokens),还有些则会分错。看起来MIQU轻松搞定了这项任务,于是我加载了两个2.8 bpw的模型(吞吐量提升一倍),但仔细检查后发现它们并不起作用。我仍然喜欢MIQU,它真是个得力助手。

Mistral的各位,如果你们有人读到这篇文章:

1) 我超爱你们的Mistral medium模型(也就是MIQU)。它为开源社区带来了革命性的变化。感谢你们对此持开放态度!

2) 你们有没有可能将其正式化,并“妥善发布”给社区?我的意思是,大家其实都已经在用了,所以不妨正式发布。如果你们能这么做就太酷了! :)

2024年7月20日

过去几周,我的工作效率高得离谱。

今天,我本有充足的时间来处理很多工作,真的有,但……我在待办清单上几乎毫无进展。感觉真糟糕。 相反,我花了几个小时整理和清理我的DATASET文件夹,它足足有0.5TB。 这很枯燥,而且说实话,我做得相当敷衍。

老实说,我有点 burnout 了。所以明天,我计划在海边至少享用一升啤酒。太棒了! 我会去见一个好朋友,我们都打算带上笔记本电脑,一起查看我生成的最新数据(边喝边看!)。 我们会进行头脑风暴,但明天的首要目标其实是好好享受啤酒,因为有时候这才是完成事情的最佳方式。为大脑充充电,也为创造力充充电!(嘿,我其实不需要找借口喝啤酒,对吧?对吧??)

我们还不是机器(还不是?),没有人能一直保持100%的效率。 而且,在海边喝着啤酒讨论AI,这感觉还挺酷的。 有点像回到16岁,但脑子更灵光了。没错,我很早就开始喝酒了——哈哈。

另外,我试了一些故事写作模型(我不会具体说是哪些,不想打击任何人),在我看来,它们大多是基于Claude\ChatGPT的输出,不算差,但也称不上好。那些“GPT式”的表达让我浑身不自在,我想创造一些完全不同的东西,采用一种全新的方法。从这个项目目前的进展来看,我似乎真的能做出一些(到目前为止?)前所未有的东西。我真的很想发布LLAMA-3_8B_Unaligned的alpha版本,但现在还为时过早。不过,这个冲动真的很强烈……

2024年7月18日

我的笔记本电脑坏了。算是吧。如果插上电源并移动电源线,它会重启。我真的很想等英伟达的5090,也就还有大约6个月的时间,但没有一台像样的笔记本电脑我就无法高效工作,所以我明天可能会买一台新的。

好消息是,这将大大加快我的工作速度,因为我将能够直接使用笔记本电脑进行一些自动化操作,而不是使用我那台24小时不间断处理张量的工作站。

此外,我的数据集创建和整理流程运行良好,我将在接下来的一周进一步完善它。

我可能会在2-3周内发布LLAMA-3_8B_Unaligned的Beta版本。它的性能应该会比我发布的Alpha版本高出好几个数量级,但即便如此,它的训练数据也只占我完整模型数据的约0.5%。

对于这样的模型来说,最重要的事情之一就是对提示词的遵循能力。这可能是最大的挑战。闭源API模型的主要优势在于它们出色的提示词遵循能力,但代价往往是创造力较低以及出现“GPT式表达”。希望我能解决这个问题。

2024年7月15日

人工智能真是神奇。进展巨大。

刚发现我的Tenebra30B模型的下载量竟然超过了Google的Gemma,这简直难以置信? 😅

2024年7月13日,更新2

纯粹出于好奇,我正在考虑用我目前制作的[work in progress]数据集对一个4B模型进行微调。与我目前正在开发的“成熟”8B模型相比,一个仅4B的模型显然会逊色不少,但看看结果仍然会很有趣。

2024年7月13日

谢天谢地,我们现在有了速度很快的电脑…… 我几乎已经完成了数据处理的Python管道。代码写得很糟糕,极其缺乏优化,看起来一团糟。

但它能正常工作。谢天谢地。再次感谢快速的电脑,我们无疑已经进入了“一次性代码”时代。这些东西浪费了无数的CPU周期,但却为我节省了大量时间(以及精神疲劳)。庆幸我不是程序员。

2024年7月12日

Tenebra_30B 本月下载量已超过8万次!它的小兄弟13B版本也有约2万次下载(统计了所有量化版本,尤其是GGUF格式)。

我感到非常荣幸,哇。大约一年后,我第一个正式的模型突然火了起来,真是不可思议 😅

我想知道这是为什么?不过,无论如何,我做了一些整理工作,清理了我的部分收藏和说明文档。

我在想,是应该发布这个模型的另一个早期检查点,还是只在它准备好时再发布?

另外,我有一个让模型能够进行角色扮演(RP)的想法,但我认为我会将其作为一个单独的模型发布。原因是目前该模型的写作能力好得惊人,我实际上担心任何添加内容都可能削弱其写作能力。不过,我也可能是错的。

2024年7月10日

今天我是个称职的数据科学家,在数据集上做了很多工作。 如果这个模型在创意写作方面表现不佳,我会非常难过, 因为我已经为此付出了这么多努力,而这还仅仅是个开始。 我的直觉必须再次正确,否则所有这些努力都将白费。 此外,我已经提交了我的一些模型到UGI排行榜进行评估。 更准确地说,是申请进行评估。

模型包括:

Tenebra30B

Tenebra13B

4B 未对齐测试(临时测试模型)

我对Tenebra30B和我制作的那个4B“怪物”的结果非常好奇。

处理数据集是一种特殊的折磨。还有其他人能理解我的痛苦吗?

2024年7月9日

两个主要更新:

我即将完成对一份惊人且独特的原始资料的关键部分的整理。 我一直努力尽我所能为社区做出贡献。 我发布了供公众使用的数据集,将我的Oobabooga TTS扩展开源,并分享了各种数据集处理工具,同时总是尽力解答我被问到的任何问题。 然而,我的努力常常遭到负面回应,尤其是在Reddit上。 许多人粗鲁地询问我是如何做到这一点和那一点的,同时还发表贬低的言论。

展望未来: 我将在所有互动中保持专业态度。 未来的数据集将不会公开发布。 我将避免提供我的方法的详细解释,而是将其称为“最先进技术”。 我仍然致力于推动我们领域的发展,并欢迎建设性的参与。

我现在更能理解为什么我们领域的一些创作者会采取更谨慎的态度。

目前,我将继续发布带有开放权重的模型。

2024年7月8日

LLaMA-3 8B模型真的能在创意写作方面表现出色吗?主流观点认为不行。迄今为止,大多数微调尝试似乎都证实了这一观点。

虽然LLaMA-3确实有其怪癖,但我有一些非常规的想法想探索。毕竟,进步往往源于一个有创新方法的人。

2024年7月5日,更新2

我刚刚清理完LLAMA-3_8B_Unaligned的自述文件。这很乏味。我今天在水疗中心。按摩很糟糕。如果不是免费的,我绝不会去做。

关于LLAMA-3_8B_Unaligned的更多内容……这只是一个8B模型,但却是我投入最多精力的模型,而且我还没完成。 然而,我在此过程中学到的东西以及正在构建的数据集是无价的,因为这些可以用于我未来将要研究的任何模型。

我最近一直在想另一个问题……人工智能,特别是LLM训练,就像是艺术、哲学和技术方面的结合。非常奇怪。我喜欢这种感觉。

2024年7月5日

关于LLAMA-3_8B_Unaligned:我对它能写出某些东西的出色程度感到震惊。真的很震惊。我没有很好的角色扮演数据集,所以 在这方面,3_8B_Unaligned不会有什么特别之处,但从最近的测试来看,它在故事写作方面会非常出色,而且让 LLAMA-3真正实现未对齐的主要目标似乎确实可以实现。进展顺利。

2024年7月3日

关于LLAMA-3_8B_Unaligned:我很高兴地报告,已经取得了重大进展,更多细节请参见LLAMA-3_8B_Unaligned的自述文件。

2024年7月2日

关于LLAMA-3_8B_Unaligned - 简单来说,坏消息是:训练失败了,模型精神错乱且无法使用。

好消息是:我想我知道哪里出了问题,而且对齐几乎被完全打破了。

既然我知道哪里出了问题,而且未对齐是完全可能的,我将再试一次。

2024年7月1日,更新3

哦,QWEN2视觉模型不支持EXL2格式……那就回归训练吧!我希望能看到更多对多模态的支持,如果能有像Axolotl这样支持多模态训练的工具就太酷了!

2024年7月1日,更新2

迄今为止最大、功能最强的无审查视觉模型发布!

CognitiveComputations刚刚发布了Dolphin-Vision-72b!这非常令人兴奋,这个新模型带来了无限可能。我首先想到的是,它使个人能够构建一个自动流水线,从零开始预训练Stable Diffusion模型,包括无审查版本。我将暂停当前的模型微调工作,以便对Dolphin-Vision-72b进行EXL2格式的量化并上传。祝贺Dolphin团队!

2024年7月1日

LLAMA-3_8B_Unaligned

平均损失:0.8。

该模型的发布时间可能会比预期的要早!

ShareGPT JSON编辑器

已解决动态语法高亮的大部分问题,看起来很棒!令牌计数功能也表现良好!

ShareGPT JSON Editor

2024年6月30日,第二次更新

JSON编辑器已制作完成并可投入使用!

https://github.com/SicariusSicariiStuff/ShareGPT_Editor

希望这个工具能对我们的社区有所帮助,也希望大家能共同参与完善它,毕竟Python不是我的强项 🙃

目前已有的功能:

  • Markdown高亮(100%可自定义)

  • 令牌计数器(100%可自定义)

  • 读取和写入ShareGPT JSON格式

  • 依赖项极少,通过YAML文件实现超高灵活性

2024年6月30日

制作一个JSON编辑器

我知道这听起来可能有些微不足道且多此一举,但我想为ShareGPT创建一个简单的JSON编辑器。有时候,我们只是想给我们的数据增添一点个人色彩,你懂的。

我真的很惊讶目前竟然没有这样一个通用的工具。我的意思是,我确信人们已经为自己制作了类似的工具。那么,为什么不与社区分享呢?

我的Python技能相当基础,但我肯定能通过提示词的方式在一两天内构建出这样一个工具。我也会很乐意将其上传到GitHub,以便造福他人。让我们省点力气,避免每次都重复造轮子,好吗?

2024年6月29日

LLAMA-3 未对齐更新 我已开始对LLAMA-3 8B进行全量微调,使用的是一个相对较小的40MB未对齐数据集。我的硬件刚好够用,并且正在使用ZERO3全卸载模式。

本实验旨在观察该数据集会如何改变模型的行为。通常情况下,我会通过深度QLoRA训练来实现未对齐(例如,LoRA R 128及类似设置)。此次LLAMA-3微调未纳入大规模角色扮演数据集,部分原因是这类数据集目前尚不存在。虽然我可以使用LimaRP和其他公开可用的数据集,但这会违背创建全新且独特内容的初衷。我已开始规划创建此类数据集,这需要投入大量时间和精力。不过,一旦开发完成,它可用于未来所有模型的训练,因此这是一项值得的投资。如果您愿意提供帮助,可以向我发送TXT或JSON格式的数据集(优先考虑JSON格式)。由于RAM卸载速度较慢,本次全量微调实验预计需要约两周时间才能完成,届时我将对后续工作有更清晰的规划。若使用2块A6000 GPU,速度可能会快五倍。

其他项目 我正在考虑训练几个LLM,以帮助我构建数据生成和整理的流水线。NVIDIA的340B Nemotron令人印象深刻,但对大多数用户而言体积过大。我在考虑为此训练一个4B的Mistral模型,其训练和推理速度应该都很快。不过,4B是7B的缩减版本,因此问题在于它是否足够连贯和智能以完成任务。如果不行,我可以训练一个7B的Mistral模型。有太多训练任务要做,但计算资源(和显存)却很有限。

本博客 它虽不常规,但很有趣,这也是我喜欢它的原因。

结束语 夏日酷暑难耐!我在冬天的工作效率要高得多。我喜欢雪和大自然。空调是必要之恶。我已经两个月没射箭了,冲浪一小时后就筋疲力尽。我需要恢复体能了。

这是什么模型?

这不是一个模型 🙃

我会在这里发布一些更新、想法和文档资料。我想我们可以称它为某种博客。

这是第一篇文章。 2024年6月28日。