Qwen3-8B

高效推理 · 多语言能力 · 思考模式切换

📖 模型简介

Qwen3-8B 是 Qwen 系列第三代大语言模型，拥有约 8.2B（82亿）参数，专为高效推理、多语言理解和复杂推理任务设计。

该模型支持 思考模式（Reasoning）与非思考模式（Chat）动态切换，在数学推理、代码生成、多轮对话等任务中表现优异。

✨ 模型特点

🧠 双模式推理（核心能力）

Thinking 模式
- 用于复杂推理（数学 / 编程 / 逻辑）
Non-Thinking 模式
- 用于高效对话（低延迟）

支持：

enable_thinking = true / false

🌍 多语言能力

支持 100+ 语言
覆盖多语种对话、翻译、推理

🧩 强推理能力

数学（GSM8K）
代码生成（HumanEval）
常识推理（MMLU）

🔗 Agent / 工具调用能力

支持函数调用
支持复杂任务编排
可用于 Agent 系统

📚 长上下文支持

原生：32K tokens
扩展：131K tokens（YaRN）

📊 模型规格

项目	参数
模型类型	Causal Language Model
参数量	8.2B
非嵌入参数	6.95B
层数	36
Attention	GQA (Q:32 / KV:8)
上下文长度	32K（可扩展）
训练数据	36T tokens
多语言	100+

🚀 性能表现（参考）

Benchmark	Qwen3-8B
GSM8K	~78.5%
MMLU	高水平
HumanEval	优秀

🧰 使用方式

1️⃣ Transformers（本地加载）

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-8B"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

prompt = "介绍一下人工智能"
inputs = tokenizer(prompt, return_tensors="pt")

outputs = model.generate(**inputs, max_new_tokens=128)
print(tokenizer.decode(outputs[0]))

2️⃣ vLLM 部署（推荐）

vllm serve Qwen/Qwen3-8B   --served-model-name qwen3-8b   --tensor-parallel-size 1

3️⃣ 思考模式调用

{
  "model": "qwen3-8b",
  "messages": [
    {"role": "user", "content": "解一道数学题"}
  ],
  "enable_thinking": true
}

💻 硬件要求

精度	显存需求
FP16	~16GB
INT4	~8GB

🧪 典型应用场景

🤖 AI 对话助手
🧮 数学推理系统
💻 代码生成（Copilot）
🧠 Agent系统（工具调用）
📊 数据分析
🌐 多语言翻译

⚙️ 推荐推理参数

temperature = 0.7（对话）
temperature = 0（推理）

top_p = 0.9
max_tokens = 256~1024

📈 优势总结

✅ 小参数高性能
✅ 推理能力强
✅ 成本低（单卡部署）
✅ 支持思考模式
✅ 多语言支持

⚠️ 注意事项

Thinking 模式会增加延迟
长上下文需注意显存
输出可能存在随机性

📄 License

Apache 2.0

🔗 相关资源

模型仓库（HuggingFace / ModelScope）
vLLM 推理框架
AISBench 性能评测

Qwen3-8B

高效推理 · 多语言能力 · 思考模式切换

📖 模型简介

Qwen3-8B 是 Qwen 系列第三代大语言模型，拥有约 8.2B（82亿）参数，专为高效推理、多语言理解和复杂推理任务设计。

该模型支持 思考模式（Reasoning）与非思考模式（Chat）动态切换，在数学推理、代码生成、多轮对话等任务中表现优异。

✨ 模型特点

🧠 双模式推理（核心能力）

Thinking 模式
- 用于复杂推理（数学 / 编程 / 逻辑）
Non-Thinking 模式
- 用于高效对话（低延迟）

支持：

enable_thinking = true / false

🌍 多语言能力

支持 100+ 语言
覆盖多语种对话、翻译、推理

🧩 强推理能力

数学（GSM8K）
代码生成（HumanEval）
常识推理（MMLU）

🔗 Agent / 工具调用能力

支持函数调用
支持复杂任务编排
可用于 Agent 系统

📚 长上下文支持

原生：32K tokens
扩展：131K tokens（YaRN）

📊 模型规格

项目	参数
模型类型	Causal Language Model
参数量	8.2B
非嵌入参数	6.95B
层数	36
Attention	GQA (Q:32 / KV:8)
上下文长度	32K（可扩展）
训练数据	36T tokens
多语言	100+

🚀 性能表现（参考）

Benchmark	Qwen3-8B
GSM8K	~78.5%
MMLU	高水平
HumanEval	优秀

🧰 使用方式

1️⃣ Transformers（本地加载）

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-8B"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

prompt = "介绍一下人工智能"
inputs = tokenizer(prompt, return_tensors="pt")

outputs = model.generate(**inputs, max_new_tokens=128)
print(tokenizer.decode(outputs[0]))

2️⃣ vLLM 部署（推荐）

vllm serve Qwen/Qwen3-8B   --served-model-name qwen3-8b   --tensor-parallel-size 1

3️⃣ 思考模式调用

{
  "model": "qwen3-8b",
  "messages": [
    {"role": "user", "content": "解一道数学题"}
  ],
  "enable_thinking": true
}

💻 硬件要求

精度	显存需求
FP16	~16GB
INT4	~8GB

🧪 典型应用场景

🤖 AI 对话助手
🧮 数学推理系统
💻 代码生成（Copilot）
🧠 Agent系统（工具调用）
📊 数据分析
🌐 多语言翻译

⚙️ 推荐推理参数

temperature = 0.7（对话）
temperature = 0（推理）

top_p = 0.9
max_tokens = 256~1024

📈 优势总结

✅ 小参数高性能
✅ 推理能力强
✅ 成本低（单卡部署）
✅ 支持思考模式
✅ 多语言支持

⚠️ 注意事项

Thinking 模式会增加延迟
长上下文需注意显存
输出可能存在随机性

📄 License

Apache 2.0

🔗 相关资源

模型仓库（HuggingFace / ModelScope）
vLLM 推理框架
AISBench 性能评测