TAS Tomusan 的官方标志,或自 2020 年 3 月 26 日起的 TAS Indie Productions 标志。
看来你是为了某些东西而来,是吧?那好,请允许我来介绍一下这件“科学艺术品”,好吗?
或者,对于那些不是第一次来这里的人?嗯,还是一样——欢迎登船!

TAS Tomusan 的 RVC_Models_Collection_Series 为你提供(近乎)最优质的语音模型,让你可以随时随地用于你的项目(例如电子游戏[无论是从头开始制作还是使用模组]、电影和动画等)。而且它们永远免费使用,永远都是(参考Sora The Troll (YouTuber))!
第一个模型是在 2023 年 7 月左右创建的(有点像个“原型”),本应首次在我自己的作品中发布,但并没有实现。 这是因为我进行了严格的质量检查,确保任何人在使用向公众发布的任何语音模型时都不会出现问题、妥协(以及投诉)。
因此,我坚信 RVC 和其他语音克隆工具这一功能在不久的将来不会停止发展和产出,因为这项技术正在全球范围内成为主流。这是因为_任何人都可以做到(几乎)不可能的事情_(只要有合适的工具、正确的知识和像这样的投入),尤其是在这一代人中——可能在正确的时间和正确的地点。在这个时代,使用 AI“相当处于灰色地带”,但无论如何,请尽情享受(并开心地)使用这些语音模型吧!
我的完整方法演示(或教程)在这里:**https://www.youtube.com/watch?v=_Zl1FQTxkhs**。
A:
非常简单。
进入“文件和版本”页面,您就能找到我过去几天(或几个月,甚至几年)制作的各种语音模型。选择一个(或多个,如果您喜欢的话),然后自行决定是否下载。
A:
内容如下:(在“(完整语音模型名称).zip”文件内 - 由于以下内容,文件通常会比较大)
指定语音模型的“参考”图片
5个示例音频(均为.wav文件)
(语音模型名称 - 显然通常不含其他语言)AI语音数据.zip - 也需要解压
一个.pth文件和一个.index文件
这在某种程度上(确实)是一种与众不同的独特风格。是的,初次接触时您可能会觉得有点复杂(难以理解和记住),但您迟早会掌握,这将成为默认的文件 arrangement。
A:
我总体上使用了以下一些程序:
- Google Colab(不是目前对免费用户有限制的 Gradio-UI) - 仅用于训练模型,不用于其他用途。
- RVC WebUI (0813) - 用于“模型推理”以及在最终确定前进行 QA / QC(质量保证 / 质量控制或检查)。
- Audacity Cross-Platform(Windows 64位版本) - 用于常规音频编辑和为计划中的语音模型制作“音频数据集”。
- “未指定的视频转音频”转换器(无论是在线的还是本地计算机上的)
我想就这些了。
A:
这完全取决于多种因素,包括是否能在互联网上轻松找到合适的资源。还有编辑因素,同样也有从非常容易到非常困难的不同程度。根据我的经验,如果我心情好(并且有信心在自己设定的特定时间内完成),我的作品大多能在一天内完成(估计最多上传1到3个语音模型)。
A:
简单来说,它是用于指导已上传(并最终确定)的语音模型的使用。阅读该文件完全是可选的,但对于那些想要阅读(并了解)更多内容(这里不剧透)直到最底部的人来说,我确实建议事先先阅读它。您/他们也可以自行下载上述文件,没有任何附加条件(这是可选的,但如果您不需要自己下载,也可以在 HuggingFace 上阅读)。
A:
这是为了确保所描绘的角色与其扮演的角色完全准确(且精确)。这样,人们就不会有疑问“除非确实存在疑问”。
下载语音模型后,您/他们是否想保留它完全是可选的,您/他们可以删除它。但出于质量检查的原因(为了不混淆声音的来源),我建议保留它 - 它只是一个单独的图像文件。
A:
这是为了展示 AI 语音模型的强大功能,并证明不仅提供了一种语言,还提供了两种甚至更多(或者我们可以说“上述所有语言 - 包括所谓的神之语言”)语言供您使用。
以下是5个可供聆听的示例演示:
英语
西班牙语
法语
日语
(以及)他加禄语 / 菲律宾语
因此,我自己选择的5种语言就足够了。我想,再多就显得太多了。此外,从您的语音模型中解压并听完所有5个样本后,是否保留它们由您决定。
A:
它们用于序列化,以确保文件安全(旁遮普语)且未检测到病毒。否则,这些文件将被标记为“不安全”(如果发现应删除) - 您可以在这里了解更多信息: **https://huggingface.co/docs/hub/security-malware**。
同样,对于“pickle”文件,您/他们无需恐慌(或害怕)该如何处理。我在这里上传时看到这些文件有点随机,但可能我根本(一点也)不在意,您也可能不在意。
A:
所有上传的语音模型均由 RVC v2(版本 2) 和 rmvpe(无论使用标准 CPU 还是 GPU) 提供支持。
A:
我必须从自己的角度告诉您,我做这个(RVC 模型包)是为了 创造性的乐趣(实验性)目的。不仅如此,作为一名档案管理员(包括作为 互联网档案馆成员),也是为了“长期”民主地保存。确实,由于我们生活中的自然现象,可以说,我们的声音会随着时间的推移而变化(通常取决于我们的生活方式),根据我自己的解释,这说明了一个比喻:
- 没有恶习(坚持锻炼)= 声音损失的风险非常小
- 少量恶习 = 风险相当小到有一些
- 大量恶习 = 明显的重大风险
但这并不意味着总能保证,总会有变化(或证明您的声音是稳定的)。或者,由于“遗传”原因,这可能只是随机发生的事情。
我不想过多剧透其他所有内容,所以是的,我想从我之前所说的 - 通读“Instructions_Directions.txt”直到最底部,如果您明白我在说什么(并为上述问题提供支持性答案)。
万一 HuggingFace 将来可能因 AI 相关内容和他们正在做的任何事情而面临严重的诉讼(及其争议)(希望不会,哦天哪),我有额外的计划 - 将来(甚至不能确切说出何时,但我会尽我最大努力)在互联网档案馆上传我自己的作品,作为所谓的“下载镜像”,以避免被时间遗忘。
当然,他们可以在这样的场合进行一些到许多严厉的批评(破坏性的和错误的建设性批评),但我只是在真正地做好我的工作(尽我所能),并且无论我在生活中做什么,我都只是在享受它。说真的,从长远来看,我做这件事没有任何遗憾,我对这种技术进步真的很兴奋 - 只是不断前进。
A:
说实话 - 我没有任何“计划好的”计划,因为这完全取决于我当前的心情(或充分的信心) - 如问题 #4 所述。
A:
嗯,我不相信在制作语音模型方面存在“完美”,无论是我的还是其他人的。事实上,它们在任何意义上都永远不会完美(无论您在这个特定功能上付出多少努力),因为 AI 声音的实际效果是,当尝试从一个或多个音频源进行“推理”时,可能会有相当小的 vocal glitches(随机可能)。即使您使用 rmvpe 特征提取算法 - 在您自己的听力测试中也会有一些小瑕疵之类的。
虽然说实话,它们非常接近完美质量,但根本不是太完美。
A:
是的,“不朽”在声音的意义上是存在的。同样,创建的语音模型在最终确定后,随着时间的推移(即使在未来很多很多年)也不会有“老化”的迹象。这是因为从字面上看,它们以任何方式都是完全数字化的,除非停止其“不朽”的唯一选择是 - 简单地由上传者 / 作者删除原始源。
还要指出的是,选择您选择的任何给定语音模型(无论是我的,还是来自其他人 / 其他地方的),仅适用于“扮演他们的角色”,除非 AI 奇怪地具有自我意识(否则称为“能够打破角色”)。您知道,AI 的制作和调整极其复杂,就像人类(及其自然栖息地)在现实世界中的互动方式一样。
A:
它们不能获得版权,就像 AI 艺术和其他相关内容一样 - 因为它们是以“生成内容”的形式存在的。
另一方面,如果您能完全归功于我,让人们知道这些上传模型的真实来源 / 出处,那是绝对没问题的。如果您或其他人进行了适当的署名,我将非常感激,所以这完全取决于您。
A:
嗯,为什么不呢?如果我有足够的时间,我会尽我所能(也就是“我会看看我能做什么”)。如果您有任何疑问或其他事情想告诉,请随时通过电子邮件联系我:thomasandresaldana@gmail.com
如果有的话,我也可能会更新此常见问题解答以及该项目中的其他内容。
A:
对于那些还不了解我的人,我目前不仅是 YouTube 上的内容创作者(自 2017 年 6 月起),还在以下其他平台上也是:
• Rumble
• Odysee
• Bitview
• Vidlii
对了,这是我的 YouTube 频道。
否则,任何人都可以毫无麻烦地访问 我的 Linktree 页面。
感谢您阅读此 README.md 直至最后。如果这对您有帮助,请不要忘记在顶部点赞;再次强调,这完全取决于您。
保重,祝您有美好的一天!
创建日期:
2023 年 12 月 2 日(迪拜/阿曼时间晚上 9:50) = 暂时设为“私有”
2023 年 12 月 29 日(迪拜/阿曼时间下午 12:45) = 正式发布
最后更新:2023 年 12 月 29 日(迪拜/阿曼时间下午 1:52)