HuggingFace镜像/ZAYA1-74B-preview
模型介绍文件和版本分析
下载使用量0

ZAYA1-74B-Preview

ZAYA1-74B-Preview 是一个混合专家语言模型,具有 40 亿活跃参数和 740 亿总参数。这是一个基于推理的检查点,尚未针对对话进行调优,也未经过强化学习后训练。ZAYA1-74B-Preview 在 AMD 平台上进行了端到端训练。

在我们的 博客 上了解更多信息。

快速入门

前提条件

我们建议在全新的 Python 环境中安装以下库(已使用 Python 3.12 测试)。

要使用 ZAYA1-74B-preview,请从我们的 vllm 库分支安装 zaya1-pr 分支(该命令将触发从源代码完整构建 vLLM):

pip install "vllm @ git+https://github.com/Zyphra/vllm.git@zaya1-pr"

如果您想在 transformers 中运行,请同时从我们的 transformers 库分支安装 zaya1 分支:

pip install "transformers @ git+https://github.com/Zyphra/transformers.git@zaya1"

部署

要启动 vLLM 服务器,请运行以下命令:

vllm serve Zyphra/ZAYA1-74B-Preview --port 8010 \
   --mamba-cache-dtype float32 --dtype bfloat16 \
   --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser zaya_xml

对于并行部署,我们建议将DP与EP结合使用,因为上述分支暂不支持将TP用于CCA。如果在8块GPU上运行,可设置额外参数 -dp 8 -ep 以实现DP=EP=8的配置。

服务器启动后,您可以使用 curl 工具按以下示例对模型进行查询:

curl http://localhost:8010/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "Zyphra/ZAYA1-74B-Preview",
        "messages": [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": "Hello. How is it going?"}
        ]
    }'