高效推理 · 多语言能力 · 思考模式切换
Qwen3-8B 是 Qwen 系列第三代大语言模型,拥有约 8.2B(82亿)参数,专为高效推理、多语言理解和复杂推理任务设计。
该模型支持 思考模式(Reasoning)与非思考模式(Chat)动态切换,在数学推理、代码生成、多轮对话等任务中表现优异。
支持:
enable_thinking = true / false| 项目 | 参数 |
|---|---|
| 模型类型 | Causal Language Model |
| 参数量 | 8.2B |
| 非嵌入参数 | 6.95B |
| 层数 | 36 |
| Attention | GQA (Q:32 / KV:8) |
| 上下文长度 | 32K(可扩展) |
| 训练数据 | 36T tokens |
| 多语言 | 100+ |
| Benchmark | Qwen3-8B |
|---|---|
| GSM8K | ~78.5% |
| MMLU | 高水平 |
| HumanEval | 优秀 |
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-8B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
prompt = "介绍一下人工智能"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=128)
print(tokenizer.decode(outputs[0]))vllm serve Qwen/Qwen3-8B --served-model-name qwen3-8b --tensor-parallel-size 1{
"model": "qwen3-8b",
"messages": [
{"role": "user", "content": "解一道数学题"}
],
"enable_thinking": true
}| 精度 | 显存需求 |
|---|---|
| FP16 | ~16GB |
| INT4 | ~8GB |
temperature = 0.7(对话)
temperature = 0(推理)
top_p = 0.9
max_tokens = 256~1024✅ 小参数高性能
✅ 推理能力强
✅ 成本低(单卡部署)
✅ 支持思考模式
✅ 多语言支持