DeepSeek-V4-Flash-w8a8-mtp:可用于企业私有化部署、长文档处理、低成本智能体开发与行业知识库场景。该项目是高效 MoE 大模型，总参数量284B，推理仅激活13B，支持100万token超长上下文，原生适配昇腾NPU与vLLM-ascend高并发推理。【此简介由AI生成】 - AtomGit AI社区

DeepSeek-V4-Flash-w8a8-mtp

模型简介

DeepSeek-V4-Flash 是深度求索（DeepSeek）于2026年4月推出并开源的高效 MoE 大模型，属于 V4 系列主打极致性价比的版本。总参数量 284B，推理仅激活 13B，在保持接近旗舰级推理与智能体（Agent）能力的同时，显著降低显存与算力开销。支持1,000,000 token超长上下文，在长文本理解、复杂逻辑推理、智能体任务上表现突出，原生适配昇腾 NPU 与 vLLM -ascend高并发推理，适合企业私有化部署、长文档处理、低成本智能体开发与行业知识库场景。

模型规格

模型名称：DeepSeek-V4-Flash-w8a8-mtp
总参数量 / 激活参数：284B / 13B（MoE 稀疏激活）
上下文长度：1M tokens（原生支持）
量化精度：w8a8
硬件平台：昇腾架构，支持多卡分布式部署
核心架构：混合专家（MoE）Transformer，采用CSA + HCA 混合注意力:
- CSA（Compressed Sparse Attention）：每4个 token 压缩为1个，稀疏注意力聚焦关键信息
- HCA（Heavily Compressed Attention）：每128个 token 重度压缩，极致降低长序列算力

核心性能指标汇总表

并发场景	输入长度	输出长度	TTFT(ms)	TPOT(ms)	输出吞吐量(tok/s)
1 并发	1k	1k	403.18	21.70	45.30
4 并发	1k	1k	2870.94	27.89	128.21
16 并发	1k	1k	5795.84	45.46	286.99

资源下载

模型权重：https://www.modelscope.cn/models/Eco-Tech/DeepSeek-V4-Flash-w8a8-mtp