CANN/

hcomm

公开

HCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。

496
代码Commits分支Pull Requests213讨论
已合并

fix step recalculation#191

rockethcgs创建于 3 个月前从master合入到master
讨论12提交1检查0文件改动6

合并人

未指定
r
rockethcgs3 个月前创建

描述

修复大集群场景下快恢超时问题

  1. 判断所有通信域都没有配置借轨,不做链路状态检查
  2. Server和Agent状态机退出WaitResume状态时,去掉Agent等待Server命令的步骤
  3. Resume的超时时间支持可配,取建链超时环境变量值

关联的Issue

<!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #123--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。-->

测试

<!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。-->

文档更新

<!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。-->

类型标签

<!-- [x] 表示选中 -->
  • Bug修复
  • 新特性
  • 性能优化
  • 文档更新
  • 其他,请描述:
Pull Request已成功合入, 合并人 @cann-robot
(感谢 rockethcgs 的贡献)