ModelEngine/DeepSeek-V4-Flash-w8a8-mtp
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

DeepSeek-V4-Flash-w8a8-mtp

模型简介

DeepSeek-V4-Flash 是深度求索(DeepSeek)于2026年4月推出并开源的高效 MoE 大模型,属于 V4 系列主打极致性价比的版本。总参数量 284B,推理仅激活 13B,在保持接近旗舰级推理与智能体(Agent)能力的同时,显著降低显存与算力开销。支持1,000,000 token超长上下文,在长文本理解、复杂逻辑推理、智能体任务上表现突出,原生适配昇腾 NPU 与 vLLM -ascend高并发推理,适合企业私有化部署、长文档处理、低成本智能体开发与行业知识库场景。

模型规格

  • 模型名称:DeepSeek-V4-Flash-w8a8-mtp

  • 总参数量 / 激活参数:284B / 13B(MoE 稀疏激活)

  • 上下文长度:1M tokens(原生支持)

  • 量化精度:w8a8

  • 硬件平台:昇腾架构,支持多卡分布式部署

  • 核心架构: 混合专家(MoE)Transformer,采用CSA + HCA 混合注意力:

    • CSA(Compressed Sparse Attention):每4个 token 压缩为1个,稀疏注意力聚焦关键信息

    • HCA(Heavily Compressed Attention):每128个 token 重度压缩,极致降低长序列算力

核心性能指标汇总表

并发场景输入长度输出长度TTFTmsmsmsTPOTmsmsms输出吞吐量tok/stok/stok/s
1 并发1k1k403.1821.7045.30
4 并发1k1k2870.9427.89128.21
16 并发1k1k5795.8445.46286.99

资源下载

  • 模型权重:https://www.modelscope.cn/models/Eco-Tech/DeepSeek-V4-Flash-w8a8-mtp