Atomgit-Ascend/Qwen3-8B
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

Qwen3-8B

高效推理 · 多语言能力 · 思考模式切换


📖 模型简介

Qwen3-8B 是 Qwen 系列第三代大语言模型,拥有约 8.2B(82亿)参数,专为高效推理、多语言理解和复杂推理任务设计。

该模型支持 思考模式(Reasoning)与非思考模式(Chat)动态切换,在数学推理、代码生成、多轮对话等任务中表现优异。


✨ 模型特点

🧠 双模式推理(核心能力)

  • Thinking 模式
    • 用于复杂推理(数学 / 编程 / 逻辑)
  • Non-Thinking 模式
    • 用于高效对话(低延迟)

支持:

enable_thinking = true / false

🌍 多语言能力

  • 支持 100+ 语言
  • 覆盖多语种对话、翻译、推理

🧩 强推理能力

  • 数学(GSM8K)
  • 代码生成(HumanEval)
  • 常识推理(MMLU)

🔗 Agent / 工具调用能力

  • 支持函数调用
  • 支持复杂任务编排
  • 可用于 Agent 系统

📚 长上下文支持

  • 原生:32K tokens
  • 扩展:131K tokens(YaRN)

📊 模型规格

项目参数
模型类型Causal Language Model
参数量8.2B
非嵌入参数6.95B
层数36
AttentionGQA (Q:32 / KV:8)
上下文长度32K(可扩展)
训练数据36T tokens
多语言100+

🚀 性能表现(参考)

BenchmarkQwen3-8B
GSM8K~78.5%
MMLU高水平
HumanEval优秀

🧰 使用方式

1️⃣ Transformers(本地加载)

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-8B"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

prompt = "介绍一下人工智能"
inputs = tokenizer(prompt, return_tensors="pt")

outputs = model.generate(**inputs, max_new_tokens=128)
print(tokenizer.decode(outputs[0]))

2️⃣ vLLM 部署(推荐)

vllm serve Qwen/Qwen3-8B   --served-model-name qwen3-8b   --tensor-parallel-size 1

3️⃣ 思考模式调用

{
  "model": "qwen3-8b",
  "messages": [
    {"role": "user", "content": "解一道数学题"}
  ],
  "enable_thinking": true
}

💻 硬件要求

精度显存需求
FP16~16GB
INT4~8GB

🧪 典型应用场景

  • 🤖 AI 对话助手
  • 🧮 数学推理系统
  • 💻 代码生成(Copilot)
  • 🧠 Agent系统(工具调用)
  • 📊 数据分析
  • 🌐 多语言翻译

⚙️ 推荐推理参数

temperature = 0.7(对话)
temperature = 0(推理)

top_p = 0.9
max_tokens = 256~1024

📈 优势总结

✅ 小参数高性能
✅ 推理能力强
✅ 成本低(单卡部署)
✅ 支持思考模式
✅ 多语言支持


⚠️ 注意事项

  • Thinking 模式会增加延迟
  • 长上下文需注意显存
  • 输出可能存在随机性

📄 License

  • Apache 2.0

🔗 相关资源

  • 模型仓库(HuggingFace / ModelScope)
  • vLLM 推理框架
  • AISBench 性能评测