Baichuan-M3-235B

从问诊到决策：构建值得信赖的医疗人工智能

🏥 体验人工智能驱动的医疗问诊：ying.ai

🌟 模型概述

Baichuan-M3 是百川智能推出的新一代医疗增强型大型语言模型，是继 Baichuan-M2 之后的又一重要里程碑。

与以往主要专注于静态问答或表面角色扮演的方法不同，Baichuan-M3 经过训练，能够明确地对临床决策过程进行建模，旨在提升其在实际医疗场景中的实用性和可靠性。该模型并非仅仅生成“听起来合理的答案”或“建议尽快就医”这类高频模糊推荐，而是通过训练学会主动获取关键临床信息、构建连贯的医学推理路径，并系统性地约束易产生幻觉的行为。

核心亮点

🏆 超越 GPT-5.2：在 HealthBench、HealthBench-Hard、幻觉评估及 SCAN-bench 等多项评测中均优于 OpenAI 最新模型，树立医疗人工智能领域新标杆
🩺 高保真临床问诊：在 SCAN-bench 的临床问诊、实验室检查、诊断三个维度中均排名第一，是目前唯一获此成绩的模型
🧠 低幻觉，高可靠：通过事实感知强化学习（Fact-Aware RL），在不依赖外部工具的情况下，幻觉率低于 GPT-5.2
⚡ 高效部署：W4 量化可将内存占用降至原始大小的 26%；Gated Eagle3 推测解码技术实现 96% 的速度提升

📊 性能表现

HealthBench 与幻觉评估

HealthBench 是 OpenAI 的权威医疗基准，由来自 60 个国家的 262 名执业医师构建，包含 5000 个高保真多轮临床对话。

与 Baichuan-M2 相比，Baichuan-M3 在 HealthBench-Hard 上提升了 28 个百分点，达到 44.4，超越了 GPT-5.2。同时，它在 HealthBench 总分排行榜上位列第一。

在幻觉评估方面，我们将长文本响应分解为细粒度、可验证的原子医疗声明，并根据权威医疗证据对每个声明进行验证。即使在无工具辅助的情况下，Baichuan-M3 的幻觉率也低于 GPT-5.2。

SCAN-bench 评估

SCAN-bench 是我们的端到端临床决策基准，模拟从接诊患者到最终诊断的完整临床工作流程，通过病史采集、辅助检查和最终诊断三个环节评估模型的高保真临床问诊能力。

Baichuan-M3 在所有三个核心维度上均排名第一，在临床问诊方面领先第二名模型 12.4 分。

📢 SCAN-bench 即将开源，敬请期待。

🔬 技术特点

📖 如需详细技术信息，请参阅：技术博客

SPAR：分段式流水线强化学习

为解决长临床交互中的奖励稀疏性和 credit assignment 问题，我们提出了SPAR（Step-Penalized Advantage with Relative baseline，带相对基线的分步惩罚优势算法）：它将临床工作流程分解为病史采集、鉴别诊断、实验室检查和最终诊断四个阶段，每个阶段都有独立奖励，并结合过程级奖励进行精确的 credit assignment，驱动模型构建可审计且完整的决策逻辑。

事实感知强化学习

通过将事实核查直接融入强化学习循环，我们构建了一个在线幻觉检测模块，能够依据权威医疗证据实时验证模型生成的医疗论断，并借助高效缓存机制支持在线强化学习训练。动态奖励聚合策略会根据模型的能力阶段自适应平衡任务学习与事实约束，在不牺牲推理深度的前提下显著提升医疗事实可靠性。

高效训练与推理

采用三阶段多专家融合训练范式（领域特定强化学习→离线蒸馏→MOPD），结合Gated Eagle3 推测式解码（提速96%）和W4量化（仅占用26%内存），实现高效部署。

🔧 快速开始

from transformers import AutoTokenizer, AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan-M3-235B", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("baichuan-inc/Baichuan-M3-235B")

messages = [{"role": "user", "content": "I've been having headaches lately, especially worse in the afternoon. What should I do?"}]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    thinking_mode='on'
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768,
    temperature=0.6
)
response = tokenizer.decode(generated_ids[0][len(model_inputs.input_ids[0]):], skip_special_tokens=True)
print(response)

部署

使用 sglang>=0.4.6.post1 或 vllm>=0.9.0 创建兼容 OpenAI 的 API 端点：

# SGLang
python -m sglang.launch_server --model-path baichuan-inc/Baichuan-M3-235B --reasoning-parser qwen3

# vLLM
vllm serve baichuan-inc/Baichuan-M3-235B --reasoning-parser deepseek_r1

使用 SGlang 的推测解码 `(>=0.5.5.post3)`

为支持 eagle3 草稿模型中的门控注意力机制，只需将 sglang 安装目录下的 llama_eagle3.py 文件替换为我们提供的 draft/llama_eagle3.py，例如：

cp -f /path/to/draft/llama_eagle3.py /sgl-workspace/sglang/python/sglang/srt/models/

启动 sglang（以 8 * H20(96G) 部署为例）：

python3 -m sglang.launch_server \
   --model-path baichuan-inc/Baichuan-M3-235B \
   --tensor-parallel-size 8 \
   --trust-remote-code \
   --mem-fraction-static 0.8 \
   --host 0.0.0.0 \
   --port 80 \
   --speculative-algorithm EAGLE3 \
   --speculative-draft-model-path baichuan-inc/Baichuan-M3-235B/draft \
   --speculative-num-steps 5 \
   --speculative-eagle-topk 8 \
   --speculative-num-draft-tokens 32 \
   --reasoning-parser qwen3

⚠️ 使用须知

医疗免责声明：仅供研究与参考使用，不能替代专业的医疗诊断或治疗
预期使用场景：医学教育、健康咨询、临床决策支持
安全使用：建议在医疗专业人员指导下使用

📄 许可证

基于 Apache License 2.0 许可。允许研究和商业使用。

🤝 致谢

基础模型：Qwen3
训练框架：verl
推理引擎：vLLM、SGLang

感谢开源社区。我们致力于持续为医疗人工智能领域做出贡献和推动发展。

📞 联系我们

官方网站：Baichuan AI
技术支持：GitHub

推动医疗人工智能从“正确回答”迈向“决策支持”

📚 引用

@article{Baichuan-M3 Technical Report,
  title={Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making},
  author={Baichuan-M3 Team: Chengfeng Dou, Fan Yang, Fei Li, Jiyuan Jia, Qiang Ju, Shuai Wang, Tianpeng Li, Xiangrong Zeng, Yijie Zhou, Hongda Zhang, Jinyang Tai, Linzhuang Sun, Peidong Guo, Yichuan Mo, Xiaochuan Wang, Hengfu Cui, Zhishou Zhang},
  journal={arXiv preprint arXiv:2602.06570},
  year={2026}
}

Baichuan-M3-235B

从问诊到决策：构建值得信赖的医疗人工智能

🏥 体验人工智能驱动的医疗问诊：ying.ai

🌟 模型概述

Baichuan-M3 是百川智能推出的新一代医疗增强型大型语言模型，是继 Baichuan-M2 之后的又一重要里程碑。

核心亮点

🏆 超越 GPT-5.2：在 HealthBench、HealthBench-Hard、幻觉评估及 SCAN-bench 等多项评测中均优于 OpenAI 最新模型，树立医疗人工智能领域新标杆
🩺 高保真临床问诊：在 SCAN-bench 的临床问诊、实验室检查、诊断三个维度中均排名第一，是目前唯一获此成绩的模型
🧠 低幻觉，高可靠：通过事实感知强化学习（Fact-Aware RL），在不依赖外部工具的情况下，幻觉率低于 GPT-5.2
⚡ 高效部署：W4 量化可将内存占用降至原始大小的 26%；Gated Eagle3 推测解码技术实现 96% 的速度提升

📊 性能表现

HealthBench 与幻觉评估

HealthBench 是 OpenAI 的权威医疗基准，由来自 60 个国家的 262 名执业医师构建，包含 5000 个高保真多轮临床对话。

与 Baichuan-M2 相比，Baichuan-M3 在 HealthBench-Hard 上提升了 28 个百分点，达到 44.4，超越了 GPT-5.2。同时，它在 HealthBench 总分排行榜上位列第一。

SCAN-bench 评估

Baichuan-M3 在所有三个核心维度上均排名第一，在临床问诊方面领先第二名模型 12.4 分。

📢 SCAN-bench 即将开源，敬请期待。

🔬 技术特点

📖 如需详细技术信息，请参阅：技术博客

SPAR：分段式流水线强化学习

事实感知强化学习

高效训练与推理

🔧 快速开始

from transformers import AutoTokenizer, AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan-M3-235B", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("baichuan-inc/Baichuan-M3-235B")

messages = [{"role": "user", "content": "I've been having headaches lately, especially worse in the afternoon. What should I do?"}]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    thinking_mode='on'
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768,
    temperature=0.6
)
response = tokenizer.decode(generated_ids[0][len(model_inputs.input_ids[0]):], skip_special_tokens=True)
print(response)

部署

使用 sglang>=0.4.6.post1 或 vllm>=0.9.0 创建兼容 OpenAI 的 API 端点：

# SGLang
python -m sglang.launch_server --model-path baichuan-inc/Baichuan-M3-235B --reasoning-parser qwen3

# vLLM
vllm serve baichuan-inc/Baichuan-M3-235B --reasoning-parser deepseek_r1

使用 SGlang 的推测解码 `(>=0.5.5.post3)`

为支持 eagle3 草稿模型中的门控注意力机制，只需将 sglang 安装目录下的 llama_eagle3.py 文件替换为我们提供的 draft/llama_eagle3.py，例如：

cp -f /path/to/draft/llama_eagle3.py /sgl-workspace/sglang/python/sglang/srt/models/

启动 sglang（以 8 * H20(96G) 部署为例）：

python3 -m sglang.launch_server \
   --model-path baichuan-inc/Baichuan-M3-235B \
   --tensor-parallel-size 8 \
   --trust-remote-code \
   --mem-fraction-static 0.8 \
   --host 0.0.0.0 \
   --port 80 \
   --speculative-algorithm EAGLE3 \
   --speculative-draft-model-path baichuan-inc/Baichuan-M3-235B/draft \
   --speculative-num-steps 5 \
   --speculative-eagle-topk 8 \
   --speculative-num-draft-tokens 32 \
   --reasoning-parser qwen3

⚠️ 使用须知

医疗免责声明：仅供研究与参考使用，不能替代专业的医疗诊断或治疗
预期使用场景：医学教育、健康咨询、临床决策支持
安全使用：建议在医疗专业人员指导下使用

📄 许可证

基于 Apache License 2.0 许可。允许研究和商业使用。

🤝 致谢

基础模型：Qwen3
训练框架：verl
推理引擎：vLLM、SGLang

感谢开源社区。我们致力于持续为医疗人工智能领域做出贡献和推动发展。

📞 联系我们

官方网站：Baichuan AI
技术支持：GitHub

推动医疗人工智能从“正确回答”迈向“决策支持”

📚 引用

@article{Baichuan-M3 Technical Report,
  title={Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making},
  author={Baichuan-M3 Team: Chengfeng Dou, Fan Yang, Fei Li, Jiyuan Jia, Qiang Ju, Shuai Wang, Tianpeng Li, Xiangrong Zeng, Yijie Zhou, Hongda Zhang, Jinyang Tai, Linzhuang Sun, Peidong Guo, Yichuan Mo, Xiaochuan Wang, Hengfu Cui, Zhishou Zhang},
  journal={arXiv preprint arXiv:2602.06570},
  year={2026}
}

Baichuan-M3-235B

🌟 模型概述

核心亮点

📊 性能表现

HealthBench 与幻觉评估

SCAN-bench 评估

🔬 技术特点

SPAR：分段式流水线强化学习

事实感知强化学习

高效训练与推理

🔧 快速开始

部署

使用 SGlang 的推测解码 (>=0.5.5.post3)

⚠️ 使用须知

📄 许可证

🤝 致谢

📞 联系我们

📚 引用

Baichuan-M3-235B

🌟 模型概述

核心亮点

📊 性能表现

HealthBench 与幻觉评估

SCAN-bench 评估

🔬 技术特点

SPAR：分段式流水线强化学习

事实感知强化学习

高效训练与推理

🔧 快速开始

部署

使用 SGlang 的推测解码 (>=0.5.5.post3)

⚠️ 使用须知

📄 许可证

🤝 致谢

📞 联系我们

📚 引用

使用 SGlang 的推测解码 `(>=0.5.5.post3)`

使用 SGlang 的推测解码 `(>=0.5.5.post3)`