CANN/

hcomm

公开

HCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。

497
代码Commits分支Pull Requests206讨论
提交fa1a8bde
Llaodazhao1创作于 10 天前·Ccann-robot提交于 10 天前
1 Parent(s):f9806367
opretry server checkop state move up
Co-authored-by: ldz<laodazhao@huawei.com>



# message auto-generated for no-merge-commit merge:
!1716 merge opretry_server into 9.0.0

opretry server checkop state move up

Created-by: laodazhao1
Commit-by: ldz
Merged-by: cann-robot
Description: ## 描述
<!--在这里详细描述你的改动,包括改动的原因和所采取的方法。-->
问题点:重执行server状态机中,检查算子不一致在重建transport之后,在算子不一致的情况下,重建transport会因为建链请求不一致导致建链超时
修复方案:把检查算子不一致的步骤放在重建tranport之前
## 关联的Issue
<!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。-->
<!-- 如果这个PR不涉及Issue,可填写"NA"。-->
2026041318842
## 测试
<!--描述进行了哪些测试来验证你的改动。包括但不限于构造对应xx测试用例、二级冒烟、算子泛化等。-->
1. A3 QWEN 2+2跨超 + HCCS断链进行重执行压测
2. RDV 重执行相关用例通过
## 文档更新
<!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。-->
NA
## 类型标签
<!--  [x] 表示选中 -->
- [x] Bug修复
- [ ] 新特性
- [ ] 性能优化
- [ ] 文档更新
- [ ] 其他,请描述:


See merge request: cann/hcomm!1716
浏览文件
master
共 0 个文件变更+0-0