本仓库提供Genos-10B-v2的模型权重文件,有关模型使用说明、技术细节与示例代码,请参阅Genos GitHub仓库。
Genos系列模型是人类基因组学领域的基础模型,具备百万碱基对级上下文建模能力和单碱基分辨率序列学习能力,可支持对人类基因组序列的精细化理解与分析。Genos遵循开放科学理念,强调协作、共享与共建,致力于为全球基因组学研究社区提供可复用、可扩展的模型与工具。为此,我们已开源发布以下三个模型版本:
Genos-1.2B:参数规模为1.2B的基因组基础模型,面向高效基因序列分析任务,兼顾性能与推理效率。
Genos-10B:参数规模为10B的基因组模型,面向更复杂的基因组分析任务,在多项评测中表现出更强的建模能力。
Genos-10B-v2:在Genos-10B模型基础上进一步引入非人灵长类与多种哺乳动物序列数据进行训练,提升模型泛化能力。
此外,我们还提供了基于Megatron-LM框架训练的模型checkpoints,以支持不同训练与推理环境下的使用需求: