jd-opensource/JoyAI-LLM-Flash-Base
模型介绍文件和版本Pull Requests讨论分析
下载使用量0
JoyAI-LLM Flash-Base

Hugging Face License

1. 模型介绍

JoyAI-LLM Flash-Base 是一款先进的混合专家(Mixture-of-Experts, MoE)语言模型,具有 30 亿激活参数和 480 亿总参数。该模型采用 Muon 优化器进行训练,在前沿知识、推理和编码任务上均展现出卓越性能,同时针对智能体能力进行了精心优化。JoyAI-LLM Flash 系列旨在加速高吞吐量、低延迟的应用场景,且需保持每次查询的成本最低。

核心特性

  • 训推协同:结合 Muon 优化器与密集型 MTP 技术,开发全新优化方法解决模型扩展过程中的不稳定性问题,吞吐量较非 MTP 版本提升 1.3 至 1.7 倍。
  • 智能体能力:专为工具使用、推理及自主问题解决而设计。

2. 模型概要

架构混合专家模型(Mixture-of-Experts, MoE)
总参数数量480 亿
激活参数数量30 亿
层数(包含密集层)40
密集层数量1
注意力隐藏维度2048
MoE 隐藏维度(每专家)768
注意力头数量32
专家数量256
每 token 选择专家数8
共享专家数量1
词汇表大小129K
上下文长度128K
注意力机制MLA
激活函数SwiGLU

3. 评估结果

基准测试JoyAI-LLM Flash-baseQwen3-30B-A3B-base
MMLU84.7082.12
MMLU-Pro73.1461.76
CMMLU83.0983.60
HumanEval85.3787.80
LiveCodeBench39.9137.34
GSM8K88.7890.37
MATH78.1659.60
MATH 50077.0058.00

4. 许可证

代码仓库和模型权重均基于Modified MIT License发布。