DeepSeek-V2:DeepSeek-V2:经济高效的大规模混合专家语言模型,拥有2360亿参数,每token仅需激活210亿,性能强劲且训练成本降低42.5%,大幅减少KV缓存,提升最大生成吞吐量5.76倍。 - AtomGit AI社区