在 Shimmer 中试用 Laguna XS.2 · 获取 API 密钥 · 发布博客文章
Laguna XS.2 是一个总参数量为 330 亿的混合专家模型(Mixture-of-Experts),每个 token 激活 30 亿参数,专为本地机器上的智能体编码和长周期任务而设计。它在 40 层中的 30 层采用了带每头门控的滑动窗口注意力(Sliding Window Attention),以实现快速推理和低 KV 缓存需求。
[!NOTE] 有关我们如何训练此模型的更多详细信息,包括数据自动混合和异步离策略智能体强化学习,请查看我们的发布博客文章。
| 模型 | 规模(总参数) | SWE-bench Verified | SWE-bench Multilingual | SWE-bench Pro(公共数据集) | Terminal-Bench 2.0 |
|---|---|---|---|---|---|
| Laguna XS.2 | 33B | 68.2% | 62.4% | 44.5% | 30.1% |
| Devstral Small 2 | 24B 密集型 | 68.0% | 55.7% | - | 22.5% |
| Gemma 4 31B IT | 31B 密集型 | 52.0% | 51.7% | 35.7% | 42.9% |
| Qwen3.5-35B-A3B | 35B | 69.2% | 60.3% | 44.6% | 40.5% |
| Qwen3.6-35B-A3B | 35B | 73.4% | 67.2% | 49.5% | 51.5% |
| Claude Haiku 4.5 | - | 73.3% | - | 39.5% | 29.8% |
| GPT-5.4 Nano | - | - | - | 52.4% | 46.3% |
我们对所有对比模型在各基准测试中均采用了公开引用的最高分数。几乎所有情况下,这些分数均为发布博客文章或同等官方渠道公布的官方分数,例外情况包括:Gemma 4 31B IT 的最高公布分数由Qwen 团队报告;Claude Haiku 4.5 的 SWE-bench Pro 和 Terminal-Bench 2.0 最高公布(已验证)分数则来自其各自的官方排行榜。
Laguna XS.2 的所有基准测试均使用 Laude Institute 的 Harbor Framework 及其智能体工具包完成,最大步骤数为 500,沙箱执行环境为 8 GB RAM/2 CPU(Terminal-Bench 2.0 除外;详见下文)。所有基准测试均采用相同的采样参数:temperature=0.7,top_k=20。部分基础任务镜像和验证器进行了补丁修复,以解决任务设置中固有的基础设施可靠性问题,例如验证器使用的外部 registry 中第三方依赖的速率限制。有关这些更新和其他发现的更多详情,将在后续技术博客文章中阐述。
Laguna XS.2 在发布当天即获得 vLLM 和 Transformers 的支持,并且在 NVIDIA 团队的支持下实现了 TRT-LLM 的支持。
快速开始使用的方式是直接使用我们的 API,或通过 OpenRouter 进行使用。
[!NOTE] 我们将在有限时间内免费提供 Laguna XS.2 以及我们更大规模的 2250 亿参数模型 Laguna M.1 的 API 访问权限。您可以在我们的 平台 上创建 API 密钥。
pool 是一款轻量级终端编码代理,同时也是一个双端 Agent Client Protocol 客户端-服务器。
适用于 macOS 和 Linux 的下载与安装:
curl -fsSL https://downloads.poolside.ai/pool/install.sh | bash启动并通过 Poolside 登录 以获取免费 API 密钥。
pool可在任何 ACP 客户端 中使用。自动配置 Zed 和 JetBrains:
pool acp setup --editor zed|jetbrains使用带 Ollama 的池,只需一个命令即可完成设置:
ollama pull laguna-xs.2
ollama launch pool --model laguna-xs.2使用 /feedback 提交反馈,并阅读 GitHub 上的完整文档。
Laguna XS.2 支持 vLLM、Transformers,以及借助 NVIDIA 团队支持的 TRT-LLM。在本地机器上,搭配 Ollama(支持 MLX)和 mlx-lm 框架使用 Laguna-XS.2 可获得最佳体验。
通过 vLLM 在本地部署 Laguna XS.2,并可从任何兼容 OpenAI 的客户端对其进行查询(有关工具调用、流式传输和推理提取,请参见控制推理):
[!NOTE] Laguna XS.2 支持已合并至 vLLM(vllm-project/vllm#41129),并将在下一版本中发布。在此之前,请安装 nightly 版本的 wheel 包:
pip install vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
VLLM_USE_DEEP_GEMM=0 vllm serve \
--model poolside/Laguna-XS.2 \
--tool-call-parser poolside_v1 \
--reasoning-parser poolside_v1 \
--enable-auto-tool-choice \
--served-model-name laguna \
--default-chat-template-kwargs '{"enable_thinking": true}'有关其他部署指南,请参见 vLLM 指南页面。
为实现更低延迟,请搭配 Laguna-XS.2 DFlash 推测器 部署 Laguna XS.2。这是一个 5 层 Llama 风格的草稿模型,在编码任务中每步可生成多达 7 个 token,位置接受率约为 70%。
[!NOTE] DFlash 支持已通过 vllm-project/vllm#41880 集成到 vLLM 中,并在上述 nightly 版本的 wheel 包中提供。需要设置
VLLM_USE_DEEP_GEMM=0:DeepGEMM 当前与 DFlash 草稿路径不兼容。
VLLM_USE_DEEP_GEMM=0 vllm serve poolside/Laguna-XS.2 \
--trust-remote-code \
--enable-auto-tool-choice \
--tool-call-parser poolside_v1 \
--reasoning-parser poolside_v1 \
--speculative-config '{"model":"poolside/Laguna-XS.2-speculator.dflash","num_speculative_tokens":7,"method":"dflash"}'完整方案请参见vLLM 配方页面的 DFlash 部分。
Laguna XS.2 在 Transformers v5.7.0 及更高版本中受支持(huggingface/transformers#45673)。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "poolside/Laguna-XS.2"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
dtype=torch.bfloat16,
device_map="auto",
)
messages = [
{"role": "user", "content": "Write a Python retry wrapper with exponential backoff."},
]
# Reasoning is on by default; pass enable_thinking=False to skip the