选择适合你的方案,畅享昇腾编码模型能力,每 5 小时滚动窗口计量
今日还剩1985个名额,明天可继续领取
支持模型
今日名额已领完,明日 00:00 后可继续领取
比 Lite 版本 5 倍的可用量
昇腾模型体验
DeepSeek-R1
探索新一代推理模型,DeepSeek-R1系列以大规模强化学习为基础,实现自主推理,表现卓越,推理行为强大且独特。开源共享,助力研究社区深入探索LLM推理能力,推动行业发展。【此简介由AI生成】
Qwen3-Coder-480B-A35B-Instruct
Qwen3-Coder-480B-A35B-Instruct是当前最强大的开源代码模型之一,专为智能编程与工具调用设计。它拥有4800亿参数,支持256K长上下文,并可扩展至1M,特别擅长处理复杂代码库任务。模型在智能编码、浏览器操作等任务上表现卓越,性能媲美Claude Sonnet。支持多种平台工具调用,内置优化的函数调用格式,能高效完成代码生成与逻辑推理。推荐搭配温度0.7、top_p 0.8等参数使用,单次输出最高支持65536个token。无论是快速排序算法实现,还是数学工具链集成,都能流畅执行,为开发者提供接近人类水平的编程辅助体验。【此简介由AI生成】
DeepSeek-V3
DeepSeek-V3:强大开源的混合专家模型,671B总参数,激活37B,采用多头潜在注意力机制与DeepSeekMoE架构,训练高效、成本低,性能卓越,开源界表现领先,逼近闭源模型水平,推理加速,推理稳定,适用于多种硬件和开源软件。【此简介由AI生成】。
DeepSeek-V3.2-Exp
DeepSeek-V3.2-Exp是DeepSeek推出的实验性模型,基于V3.1-Terminus架构,创新引入DeepSeek Sparse Attention稀疏注意力机制,在保持模型输出质量的同时,大幅提升长文本场景下的训练与推理效率。该模型在MMLU-Pro、GPQA-Diamond等多领域公开基准测试中表现与V3.1-Terminus相当,支持HuggingFace、SGLang、vLLM等多种本地运行方式,开源内核设计便于研究,采用MIT许可证。【此简介由AI生成】
Kimi-K2-Instruct
Kimi K2 is a state-of-the-art mixture-of-experts (MoE) language model with 32 billion activated parameters and 1 trillion total parameters. Trained with the Muon optimizer, Kimi K2 achieves exceptional performance across frontier knowledge, reasoning, and coding tasks while being meticulously optimized for agentic capabilities.
Qwen-Image
我们隆重推出 Qwen-Image,这是通义千问系列中的图像生成基础模型,在复杂文本渲染和精准图像编辑方面取得重大突破。
Qwen3-235B-A22B-Instruct-2507
Qwen3-235B-A22B-Instruct-2507是一款强大的开源大语言模型,拥有2350亿参数,其中220亿参数处于激活状态。它在指令遵循、逻辑推理、文本理解、数学、科学、编程和工具使用等方面表现出色,尤其在长尾知识覆盖和多语言任务上显著提升。模型支持256K长上下文理解,生成内容更符合用户偏好,适用于主观和开放式任务。在多项基准测试中,它在知识、推理、编码、对齐和代理任务上超越同类模型。部署灵活,支持多种框架如Hugging Face transformers、vLLM和SGLang,适用于本地和云端应用。通过Qwen-Agent工具,能充分发挥其代理能力,简化复杂任务处理。最佳实践推荐使用Temperature=0.7、TopP=0.8等参数设置,以获得最优性能。
Qwen3-32B
Qwen3-32B具有以下特点: 类型:因果语言模型 训练阶段:训练前和训练后 参数数量:32.8B 参数数量(非嵌入):31.2B 层数:64 注意力头数量(GQA):Q 为 64 个,KV 为 8 个 上下文长度:原生长度为 32,768,使用 YaRN 后长度为 131,072 个标记
Wan2.2-I2V-A14B
Wan2.2是开源视频生成模型的重大升级,采用混合专家架构提升性能,在相同计算成本下实现更高容量。模型融入精细美学数据,支持精准控制光影、构图等电影级风格,生成更具艺术感的视频。相比前代,训练数据量增加65.6%图像和83.2%视频,显著提升运动、语义和美学表现,在开源与闭源模型中均属顶尖。特别推出5B参数的高效混合模型,支持720P@24fps的文本/图像转视频,可在4090等消费级显卡运行,是目前最快的720P模型之一。专为图像转视频设计的I2V-A14B模型采用MoE架构,减少不自然镜头运动,支持480P/720P分辨率,为多样化风格场景提供稳定合成效果。【此简介由AI生成】
DeepSeek-V3.1-Terminus
DeepSeek-V3.1-Terminus是V3的更新版,修复语言问题,并优化了代码与搜索智能体性能。
Qwen3.5-35B-A3B
融合视觉语言能力,具备高效混合架构与稀疏专家系统,支持百万级上下文,适用于推理、编码、视觉理解等多场景,助力开发者与企业应用。
Qwen3-30B-A3B
Qwen3-30B-A3B具有以下特点: 类型:因果语言模型 训练阶段:预训练和后训练 参数数量:总计 305 亿,其中已激活 33 亿 参数数量(非嵌入):29.9B 层数:48 注意力头数量(GQA):Q 为 32 个,KV 为 4 个 专家人数:128 已激活专家数量:8 上下文长度:原生长度为 32,768,使用 YaRN 后长度为 131,072 个标记
Qwen3-235B-A22B
Qwen3-235B-A22B 具有以下特点: 类型:因果语言模型 训练阶段:预训练与后训练 参数数量:总计 235B,激活 22B 参数数量(非嵌入):234B 层数:94 注意力头数(GQA):Q 为 64,KV 为 4 专家数:128 激活的专家数:8 上下文长度:本地为 32,768,使用 YaRN 可处理 131,072 个标记。
bge-m3
BGE-M3,一款全能型多语言嵌入模型,具备三大检索功能:稠密检索、稀疏检索和多元向量检索,覆盖超百种语言,可处理不同粒度输入,从短句到长达8192个token的文档。通用预训练支持,统一微调示例,适用于多场景文本相似度计算,性能卓越,潜力无限。
Wan2.2-T2V-A14B
基于Mixture-of-Experts架构,支持文本生成5秒480P/720P视频。具备电影级美学效果与复杂动作生成能力,在Wan-Bench 2.0基准测试中超越主流商业模型。
DeepSeek-V3.2
融合DeepSeek稀疏注意力机制,具备高效计算与卓越推理能力,获2025 IMO和IOI金牌,支持工具调用与智能体任务,优化长上下文场景表现。
Qwen-Image-Edit-2509
Qwen-Image-Edit九月迭代版,支持1-3张图编辑,提升人像身份、产品特征、文本内容及样式一致性,原生集成ControlNet深度/边缘/关键点控制。
Qwen3-30B-A3B-Instruct-2507
Qwen3系列更新版,提升指令遵循、逻辑推理、多语言长尾知识覆盖,优化主观任务用户偏好对齐,支持256K长上下文理解,非思考模式输出。
Qwen3-235B-A22B-Thinking-2507
Qwen3-235B-A22B-Thinking-2507推理能力显著提升,在逻辑、数学、科学、编码等复杂任务上达开源领先水平,增强256K长上下文理解,优化工具使用与人类偏好对齐。
Qwen2-VL-72B
Qwen2-VL-72B,新一代视觉语言模型,具备卓越的图像理解能力、视频处理技巧,并能操作手机、机器人等设备。多语言支持,适应全球用户需求。创新架构,更贴近人类的视觉处理方式,开启多模态交互新篇章。