Baichuan-M3 是百川智能推出的新一代医疗增强型大型语言模型,是继 Baichuan-M2 之后的又一重要里程碑。
与以往主要专注于静态问答或表面角色扮演的方法不同,Baichuan-M3 经过训练,能够明确地对临床决策过程进行建模,旨在提升其在实际医疗场景中的实用性和可靠性。该模型并非仅仅生成“听起来合理的答案”或“建议尽快就医”这类高频模糊推荐,而是通过训练学会主动获取关键临床信息、构建连贯的医学推理路径,并系统性地约束易产生幻觉的行为。
HealthBench 是 OpenAI 的权威医疗基准,由来自 60 个国家的 262 名执业医师构建,包含 5000 个高保真多轮临床对话。
与 Baichuan-M2 相比,Baichuan-M3 在 HealthBench-Hard 上提升了 28 个百分点,达到 44.4,超越了 GPT-5.2。同时,它在 HealthBench 总分排行榜上位列第一。
在幻觉评估方面,我们将长文本响应分解为细粒度、可验证的原子医疗声明,并根据权威医疗证据对每个声明进行验证。即使在无工具辅助的情况下,Baichuan-M3 的幻觉率也低于 GPT-5.2。
SCAN-bench 是我们的端到端临床决策基准,模拟从接诊患者到最终诊断的完整临床工作流程,通过病史采集、辅助检查和最终诊断三个环节评估模型的高保真临床问诊能力。
Baichuan-M3 在所有三个核心维度上均排名第一,在临床问诊方面领先第二名模型 12.4 分。
📢 SCAN-bench 即将开源,敬请期待。
📖 如需详细技术信息,请参阅:技术博客
为解决长临床交互中的奖励稀疏性和 credit assignment 问题,我们提出了SPAR(Step-Penalized Advantage with Relative baseline,带相对基线的分步惩罚优势算法):它将临床工作流程分解为病史采集、鉴别诊断、实验室检查和最终诊断四个阶段,每个阶段都有独立奖励,并结合过程级奖励进行精确的 credit assignment,驱动模型构建可审计且完整的决策逻辑。
通过将事实核查直接融入强化学习循环,我们构建了一个在线幻觉检测模块,能够依据权威医疗证据实时验证模型生成的医疗论断,并借助高效缓存机制支持在线强化学习训练。动态奖励聚合策略会根据模型的能力阶段自适应平衡任务学习与事实约束,在不牺牲推理深度的前提下显著提升医疗事实可靠性。
采用三阶段多专家融合训练范式(领域特定强化学习→离线蒸馏→MOPD),结合Gated Eagle3 推测式解码(提速96%)和W4量化(仅占用26%内存),实现高效部署。
from transformers import AutoTokenizer, AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan-M3-235B", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("baichuan-inc/Baichuan-M3-235B")
messages = [{"role": "user", "content": "I've been having headaches lately, especially worse in the afternoon. What should I do?"}]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
thinking_mode='on'
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=32768,
temperature=0.6
)
response = tokenizer.decode(generated_ids[0][len(model_inputs.input_ids[0]):], skip_special_tokens=True)
print(response)使用 sglang>=0.4.6.post1 或 vllm>=0.9.0 创建兼容 OpenAI 的 API 端点:
# SGLang
python -m sglang.launch_server --model-path baichuan-inc/Baichuan-M3-235B --reasoning-parser qwen3
# vLLM
vllm serve baichuan-inc/Baichuan-M3-235B --reasoning-parser deepseek_r1(>=0.5.5.post3)cp -f /path/to/draft/llama_eagle3.py /sgl-workspace/sglang/python/sglang/srt/models/python3 -m sglang.launch_server \
--model-path baichuan-inc/Baichuan-M3-235B \
--tensor-parallel-size 8 \
--trust-remote-code \
--mem-fraction-static 0.8 \
--host 0.0.0.0 \
--port 80 \
--speculative-algorithm EAGLE3 \
--speculative-draft-model-path baichuan-inc/Baichuan-M3-235B/draft \
--speculative-num-steps 5 \
--speculative-eagle-topk 8 \
--speculative-num-draft-tokens 32 \
--reasoning-parser qwen3基于 Apache License 2.0 许可。允许研究和商业使用。
感谢开源社区。我们致力于持续为医疗人工智能领域做出贡献和推动发展。
推动医疗人工智能从“正确回答”迈向“决策支持”
@article{Baichuan-M3 Technical Report,
title={Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making},
author={Baichuan-M3 Team: Chengfeng Dou, Fan Yang, Fei Li, Jiyuan Jia, Qiang Ju, Shuai Wang, Tianpeng Li, Xiangrong Zeng, Yijie Zhou, Hongda Zhang, Jinyang Tai, Linzhuang Sun, Peidong Guo, Yichuan Mo, Xiaochuan Wang, Hengfu Cui, Zhishou Zhang},
journal={arXiv preprint arXiv:2602.06570},
year={2026}
}