ZAYA1-74B-Preview

ZAYA1-74B-Preview 是一个混合专家语言模型，具有 40 亿活跃参数和 740 亿总参数。这是一个基于推理的检查点，尚未针对对话进行调优，也未经过强化学习后训练。ZAYA1-74B-Preview 在 AMD 平台上进行了端到端训练。

在我们的博客上了解更多信息。

快速入门

前提条件

我们建议在全新的 Python 环境中安装以下库（已使用 Python 3.12 测试）。

要使用 ZAYA1-74B-preview，请从我们的 vllm 库分支安装 zaya1-pr 分支（该命令将触发从源代码完整构建 vLLM）：

pip install "vllm @ git+https://github.com/Zyphra/vllm.git@zaya1-pr"

如果您想在 transformers 中运行，请同时从我们的 transformers 库分支安装 zaya1 分支：

pip install "transformers @ git+https://github.com/Zyphra/transformers.git@zaya1"

部署

要启动 vLLM 服务器，请运行以下命令：

vllm serve Zyphra/ZAYA1-74B-Preview --port 8010 \
   --mamba-cache-dtype float32 --dtype bfloat16 \
   --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser zaya_xml

对于并行部署，我们建议将DP与EP结合使用，因为上述分支暂不支持将TP用于CCA。如果在8块GPU上运行，可设置额外参数 -dp 8 -ep 以实现DP=EP=8的配置。

服务器启动后，您可以使用 curl 工具按以下示例对模型进行查询：

curl http://localhost:8010/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "Zyphra/ZAYA1-74B-Preview",
        "messages": [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": "Hello. How is it going?"}
        ]
    }'