JoyAI-LLM Flash-Base 是一款先进的混合专家(Mixture-of-Experts, MoE)语言模型,具有 30 亿激活参数和 480 亿总参数。该模型采用 Muon 优化器进行训练,在前沿知识、推理和编码任务上均展现出卓越性能,同时针对智能体能力进行了精心优化。JoyAI-LLM Flash 系列旨在加速高吞吐量、低延迟的应用场景,且需保持每次查询的成本最低。
| 架构 | 混合专家模型(Mixture-of-Experts, MoE) |
| 总参数数量 | 480 亿 |
| 激活参数数量 | 30 亿 |
| 层数(包含密集层) | 40 |
| 密集层数量 | 1 |
| 注意力隐藏维度 | 2048 |
| MoE 隐藏维度(每专家) | 768 |
| 注意力头数量 | 32 |
| 专家数量 | 256 |
| 每 token 选择专家数 | 8 |
| 共享专家数量 | 1 |
| 词汇表大小 | 129K |
| 上下文长度 | 128K |
| 注意力机制 | MLA |
| 激活函数 | SwiGLU |
| 基准测试 | JoyAI-LLM Flash-base | Qwen3-30B-A3B-base |
|---|---|---|
| MMLU | 84.70 | 82.12 |
| MMLU-Pro | 73.14 | 61.76 |
| CMMLU | 83.09 | 83.60 |
| HumanEval | 85.37 | 87.80 |
| LiveCodeBench | 39.91 | 37.34 |
| GSM8K | 88.78 | 90.37 |
| MATH | 78.16 | 59.60 |
| MATH 500 | 77.00 | 58.00 |
代码仓库和模型权重均基于Modified MIT License发布。