DeepSeek-V4-Flash 是深度求索(DeepSeek)于2026年4月推出并开源的高效 MoE 大模型,属于 V4 系列主打极致性价比的版本。总参数量 284B,推理仅激活 13B,在保持接近旗舰级推理与智能体(Agent)能力的同时,显著降低显存与算力开销。支持1,000,000 token超长上下文,在长文本理解、复杂逻辑推理、智能体任务上表现突出,原生适配昇腾 NPU 与 vLLM -ascend高并发推理,适合企业私有化部署、长文档处理、低成本智能体开发与行业知识库场景。
模型名称:DeepSeek-V4-Flash-w8a8-mtp
总参数量 / 激活参数:284B / 13B(MoE 稀疏激活)
上下文长度:1M tokens(原生支持)
量化精度:w8a8
硬件平台:昇腾架构,支持多卡分布式部署
核心架构: 混合专家(MoE)Transformer,采用CSA + HCA 混合注意力:
CSA(Compressed Sparse Attention):每4个 token 压缩为1个,稀疏注意力聚焦关键信息
HCA(Heavily Compressed Attention):每128个 token 重度压缩,极致降低长序列算力
| 并发场景 | 输入长度 | 输出长度 | TTFT(ms) | TPOT(ms) | 输出吞吐量(tok/s) |
|---|---|---|---|---|---|
| 1 并发 | 1k | 1k | 403.18 | 21.70 | 45.30 |
| 4 并发 | 1k | 1k | 2870.94 | 27.89 | 128.21 |
| 16 并发 | 1k | 1k | 5795.84 | 45.46 | 286.99 |