CANN/

hcomm

公开

HCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。

496
代码Commits分支Pull Requests213讨论
已合并

opretry server checkop state move up#1738

laodazhao1创建于 11 天前从cherry-pick-mr-1716-1776245302083-auto合入到master
讨论12提交1检查0文件改动4

合并人

未指定
l
laodazhao111 天前创建

描述

<!--在这里详细描述你的改动,包括改动的原因和所采取的方法。-->

问题点:重执行server状态机中,检查算子不一致在重建transport之后,在算子不一致的情况下,重建transport会因为建链请求不一致导致建链超时 修复方案:把检查算子不一致的步骤放在重建tranport之前

关联的Issue

<!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。--> <!-- 如果这个PR不涉及Issue,可填写"NA"。-->

2026041318842

测试

<!--描述进行了哪些测试来验证你的改动。包括但不限于构造对应xx测试用例、二级冒烟、算子泛化等。-->
  1. A3 QWEN 2+2跨超 + HCCS断链进行重执行压测
  2. RDV 重执行相关用例通过

文档更新

<!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。-->

NA

类型标签

<!-- [x] 表示选中 -->
  • Bug修复
  • 新特性
  • 性能优化
  • 文档更新
  • 其他,请描述:
Pull Request已成功合入, 合并人 @cann-robot
(感谢 laodazhao1 的贡献)