[ModelPage]: https://static.stepfun.com/blog/step-3.7-flash/
Step 3.7 Flash 是一个拥有 1980 亿参数的稀疏混合专家(MoE)视觉语言模型,它将 1960 亿参数的语言主干网络与 18 亿参数的视觉编码器相结合,具备原生图像理解能力。该模型专为高频生产工作负载设计,每个 token 约激活 110 亿参数,吞吐量高达每秒 400 个 token。Step 3.7 Flash 支持 256k 上下文窗口,并提供三种可选择的推理级别(低、中、高),以便开发者轻松平衡速度、成本和认知深度。
我们构建 Step 3.7 Flash 是为了满足那些需要扩展融合感知、搜索和推理的智能体工作流的开发者。它旨在处理密集型任务,例如一次性解析海量财务报告、运行带有跨源验证的多步骤搜索循环,或在高吞吐量管道中运行并发编码智能体。
该模型具备顶级视觉智能,在 SimpleVQA(Search)任务中以 79.2 分获得第一名,并在 V*(Python)任务中以 95.3 分达到前沿水平。这些指标反映了其强大的视觉基础能力和超越基本图像描述的检索增强推理能力。该模型能够准确处理密集的视觉界面,如 UI 线框图、应用程序 GUI 和数据图表,并将其映射为结构化代码。当遇到不完整的视觉资产时,它能够独立识别缺失数据,并在返回经过事实验证的结论之前执行查找以验证上下文。
执行可靠性对于自主智能体至关重要。Step 3.7 Flash 在 ClawEval-1.1 基准测试中以 67.1 分领先,显著优于第二名的 59.8 分。这一性能表明,在多轮编排过程中,该模型对 adversarial 陷阱具有高度抵抗力,并严格遵守系统策略。凭借在 Toolathlon 上 49.5 分和在 HLE w. Tool 上 48.1 分的成绩,该模型确保了高轨迹完整性。Step 3.7 Flash 能够可靠地与外部 API 交互,并执行长周期工作流,而不会偏离指令或违反系统约束。
Step 3.7 Flash 专为实际工程任务打造,在 SWE-Bench PRO 评测中以 56.3 分的成绩稳居第二名。它能够独立追踪多文件代码库,从原始问题报告中定位 bug,并生成可通过自动化单元测试的功能性补丁。尽管在 Terminal-Bench 2.1(59.5 分)和 GDPVal-AA(45.8 分)等评测中,与同类最佳模型相比仍有明显的优化空间,但这些成绩为系统交互和结构化专业交付成果奠定了可靠的基准。

| 令牌类型 | 价格 |
|---|---|
| 输入(缓存未命中) | $0.20 / 百万令牌 |
| 输入(缓存命中) | $0.04 / 百万令牌 |
| 输出 | $1.15 / 百万令牌 |
您可以通过StepFun的API或其他推理服务提供商,在几分钟内开始使用Step-3.7-Flash。
为您所在的地区选择正确的
base_url。StepFun运营着两个区域平台,分别拥有独立的API主机。您传递给OpenAI客户端的base_url必须与您的API密钥所在的平台相匹配,否则请求将被视为未授权而遭到拒绝。
- 全球:platform.stepfun.ai —
base_url=https://api.stepfun.ai/v1- 中国:platform.stepfun.com —
base_url=https://api.stepfun.com/v1为避免硬编码错误的地区信息,以下示例将从环境变量中读取API密钥和基础URL。在运行前导出它们:
export STEP_API_KEY="sk-..." export STEP_BASE_URL="https://api.stepfun.ai/v1" # 中国平台请使用 https://api.stepfun.com/v1
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["STEP_API_KEY"],
base_url=os.environ["STEP_BASE_URL"],
)
completion = client.chat.completions.create(
model="step-3.7-flash",
messages=[
{
"role": "system",
"content": "You are an AI assistant provided by StepFun. You are good at Chinese, English, and many other languages, and you can see, think, and act to help users get things done.",
},
{
"role": "user",
"content": "Introduce StepFun's artificial intelligence capabilities."
},
],
)
print(completion)import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["STEP_API_KEY"],
base_url=os.environ["STEP_BASE_URL"],
)
completion = client.chat.completions.create(
model="step-3.7-flash",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "What is in this picture?"},
{
"type": "image_url",
"image_url": {"url": "https://example.com/photo.jpg"},
},
],
},
],
)
print(completion)Step 3.7 Flash 针对本地推理进行了优化,并支持行业标准后端,包括 vLLM、SGLang、Hugging Face Transformers 和 llama.cpp。
我们建议使用 StepFun 预构建的、支持 Step 3.7 的 vLLM Docker 镜像。
# via Docker
docker pull vllm/vllm-openai:stepfun37 vllm serve <MODEL_PATH_OR_HF_ID> \
--served-model-name step3p7-flash \
--tensor-parallel-size 8 \
--enable-expert-parallel \
--disable-cascade-attn \
--reasoning-parser step3p5 \
--enable-auto-tool-choice \
--tool-call-parser step3p5 \
--speculative_config '{"method": "mtp", "num_speculative_tokens": 3}' \
--trust-remote-code vllm serve <MODEL_PATH_OR_HF_ID> \
--served-model-name step3p7-flash-bf16 \
--tensor-parallel-size 8 \
--enable-expert-parallel \
--disable-cascade-attn \
--reasoning-parser step3p5 \
--enable-auto-tool-choice \
--tool-call-parser step3p5 \
--speculative_config '{"method": "mtp", "num_speculative_tokens": 3}' \
--trust-remote-code python3 -m vllm.entrypoints.openai.api_server \
--host 0.0.0.0 \
--port ${PORT} \
--model stepfun-ai/Step-3.7-Flash-NVFP4 \
--served-model-name step3p7 \
--tensor-parallel-size 4 \
--gpu-memory-utilization 0.9 \
--enable-expert-parallel \
--trust-remote-code \
--quantization modelopt \
--kv-cache-dtype fp8 \
--max-model-len 8192 \
--reasoning-parser step3p5 \
--enable-auto-tool-choice \
--tool-call-parser step3p5 \
--async-scheduling# via Docker
docker pull lmsysorg/sglang:dev-step-3.7-flash
# or from source (pip)
pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git"注意: 对于 Blackwell GPU,可以使用
--mm-attention-backend fa4。
sglang serve --model-path stepfun-ai/Step-3.7-Flash \
--tp 8 \
--reasoning-parser step3p5 \
--tool-call-parser step3p5 \
--enable-multimodal \
--speculative-algorithm EAGLE \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4 \
--enable-multi-layer-eagle \
--trust-remote-code \
--host 0.0.0.0 \
--port 8000sglang serve --model-path stepfun-ai/Step-3.7-Flash-FP8 \
--tp 8 \
--ep 4 \
--reasoning-parser step3p5 \
--tool-call-parser step3p5 \
--enable-multimodal \
--speculative-algorithm EAGLE \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4 \
--enable-multi-layer-eagle \
--trust-remote-code \
--host 0.0.0.0 \
--port 8000sglang serve --model-path stepfun-ai/Step-3.7-Flash-NVFP4 \
--tp 4 --ep 4 \
--moe-runner-backend flashinfer_trtllm \
--kv-cache-dtype fp8_e4m3 \
--quantization modelopt_fp4 \
--trust-remote-code \
--reasoning-parser step3p5 \
--tool-call-parser step3p5 \
--attention-backend trtllm_mha使用此代码片段可进行快速功能验证。如需高吞吐量服务,请使用 vLLM 或 SGLang。
注意: 部署此模型需要
transformers5.0 或更高版本。
from transformers import AutoProcessor, AutoModelForCausalLM
MODEL_PATH = "<MODEL_PATH_OR_HF_ID>"
# 1. Setup
processor = AutoProcessor.from_pretrained(MODEL_PATH, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
MODEL_PATH,
device_map="auto",
dtype="auto",
trust_remote_code=True
)
# 2. Prepare Input
messages = [
{
"role": "user",
"content": [
{"type": "image", "url": "https://example.com/photo.jpg"},
{"type": "text", "text": "What is in this picture?"}
]
},
]
inputs = processor.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
# 3. Generate
generated_ids = model.generate(**inputs, max_new_tokens=128, do_sample=False)
output_text = processor.decode(generated_ids[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
print(output_text)系统要求
GGUF 模型权重:
| 组件 | 量化方式 | 文件大小 |
|---|---|---|
| Language Model | Q4_K_S | 111.5 GB |
| Language Model | IQ4_XS | 104.99 GB |
| Language Model | Q3_K_L | 102.5 GB |
| Multimodal Projector | FP16 | 3.97 GB |
步骤
git clone https://github.com/stepfun-ai/llama.cpp.git
cd llama.cpp
git checkout -b step3.7 origin/step3.7cmake -B build-macos -S . \
-DCMAKE_BUILD_TYPE=Release \
-DBUILD_SHARED_LIBS=ON \
-DLLAMA_BUILD_SERVER=ON \
-DLLAMA_BUILD_TESTS=ON \
-DGGML_METAL=ON \
-DGGML_METAL_EMBED_LIBRARY=ON \
-DGGML_BLAS=ON \
-DGGML_BLAS_VENDOR=Apple \
-DGGML_ACCELERATE=ON \
-DGGML_NATIVE=ON
cmake --build build-macos -j8cmake -S . -B build-cuda \
-DCMAKE_BUILD_TYPE=Release \
-DGGML_CUDA=ON \
-DGGML_CUDA_GRAPHS=ON \
-DGGML_CUDA_FORCE_MMQ=ON \
-DLLAMA_OPENSSL=OFF \
-DLLAMA_BUILD_COMMON=ON \
-DLLAMA_BUILD_TOOLS=ON \
-DLLAMA_BUILD_SERVER=ON \
-DLLAMA_BUILD_EXAMPLES=OFF \
-DLLAMA_BUILD_TESTS=OFF
cmake --build build-cuda -j8cmake -S . -B build-vulkan \
-DCMAKE_BUILD_TYPE=Release \
-DGGML_VULKAN=ON \
-DGGML_NATIVE=ON \
-DLLAMA_BUILD_SERVER=ON \
-DLLAMA_BUILD_UI=OFF \
-DLLAMA_BUILD_TOOLS=ON
cmake --build build-vulkan -j8llama-cli 运行:./llama-cli -m Step3.7_Q4_K_S.gguf -b 2048 -ub 2048 -fa on --temp 1.0 -p "What's your name?"llama-batched-bench 测试性能:./llama-batched-bench -m step3.7_Q4_K_S.gguf -c 32768 -b 2048 -ub 2048 -npp 0,2048,8192,16384,32768 -ntg 128 -npl 1您可以在 Hermes Agent、OpenClaw、Kilo Code 等智能体平台上使用 Step 3.7 Flash。
我们致力于通过拓展模型的广泛能力来塑造通用人工智能(AGI)的未来,因此希望确保我们正在解决正确的问题。我们诚邀您加入这个持续的反馈循环——您的见解将直接影响我们的工作重点。
本项目基于 Apache 2.0 许可证 开源。