ZAYA1-74B-Preview 是一个混合专家语言模型,具有 40 亿活跃参数和 740 亿总参数。这是一个基于推理的检查点,尚未针对对话进行调优,也未经过强化学习后训练。ZAYA1-74B-Preview 在 AMD 平台上进行了端到端训练。
在我们的 博客 上了解更多信息。
我们建议在全新的 Python 环境中安装以下库(已使用 Python 3.12 测试)。
要使用 ZAYA1-74B-preview,请从我们的 vllm 库分支安装 zaya1-pr 分支(该命令将触发从源代码完整构建 vLLM):
pip install "vllm @ git+https://github.com/Zyphra/vllm.git@zaya1-pr"如果您想在 transformers 中运行,请同时从我们的 transformers 库分支安装 zaya1 分支:
pip install "transformers @ git+https://github.com/Zyphra/transformers.git@zaya1"要启动 vLLM 服务器,请运行以下命令:
vllm serve Zyphra/ZAYA1-74B-Preview --port 8010 \
--mamba-cache-dtype float32 --dtype bfloat16 \
--reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser zaya_xml对于并行部署,我们建议将DP与EP结合使用,因为上述分支暂不支持将TP用于CCA。如果在8块GPU上运行,可设置额外参数 -dp 8 -ep 以实现DP=EP=8的配置。
服务器启动后,您可以使用 curl 工具按以下示例对模型进行查询:
curl http://localhost:8010/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Zyphra/ZAYA1-74B-Preview",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello. How is it going?"}
]
}'