CANN/

hcomm

公开

HCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。

496
代码Commits分支Pull Requests213讨论
提交a79e7680
Gguoziqi创作于 1 天前·Ccann-robot提交于 1 天前
1 Parent(s):72dac74b
ccu fallback to aicpu new
Co-authored-by: guoziqi2025<guoziqi2@huawei.com>
Co-authored-by: one_random<shibingchen@huawei.com>



# message auto-generated for no-merge-commit merge:
!1750 merge ccu_fallback into master

ccu fallback to aicpu new

Created-by: guoziqi2025
Commit-by: guoziqi2025;one_random
Merged-by: cann-robot
Description: ## 描述
<!--在这里详细描述你的改动,包括改动的原因和所采取的方法。-->
1、【Hcomm仓】HCCL支持通信域初始化阶段ccu资源占用失败后回退到aicpu_ts模式
通信域初始化阶段可配置CCU引擎模式,初始化时会占用一部分CCU资源,供后续ccu通信算子使用。如果因CCU资源不足或CCU驱动已被其他进程拉起导致资源占用失败,则需要将通信域的模式做回退,可能的回退如下:
1)从CCU_MS模式回退到CCU_SCHE模式(MS相关资源不足)
2)从CCU_SCHE模式回退到AICPU_TS模式(SCHED资源不足或CCU重复拉起)
3)从CCU_MS模式回退到AICPU_TS模式(CCU重复拉起)

2、【Hcomm仓】HCCL支持算子下发阶段因CCU资源不足导致失败后,返回特定错误码,并释放已申请成功的前序资源
CCU资源申请或占用失败后,释放当前算子本次下发过程中已经新申请或新占用成功的资源,不释放和前序算子复用的资源,向上返回HCCL_E_UNAVAIL错误码

3、适配MC2场景新老通信域混跑

## 关联的Issue
<!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。-->
<!-- 如果这个PR不涉及Issue,可填写"NA"。-->

## 测试
<!--描述进行了哪些测试来验证你的改动。包括但不限于构造对应xx测试用例、二级冒烟、算子泛化等。-->
HLT验证:
| 测试用例 | 测试预期结果 |
|--|--|
| 创建两个CCU MS通信域 | 一个MS通信域,另一个回退到SCHED |
| 创建6个CCU MS通信域 | 一个MS通信域,4个SCHED通信域,1个AICPU通信域 |
| 8P环境,6个CCU MS通信域 | 初始化后:一个MS通信域,4个SCHED通信域,1个AICPU通信域;建链时:第四个建链的SCHED通信域由于wqebb不足回退到AICPU重新下算子 |

LLT验证:
测试Init时用户未配置展开模式时,读取环境变量配置
测试Init时ccu驱动拉起失败回退到aicpu
测试Init时ccu ms资源不足回退到sched
测试Init时ccu ms和sched资源不足回退到aicpu
测试Init在申请资源时出现其他报错时失败
测试BatchCreateChannels在资源不足时销毁新申请的channel
测试多次调用BatchCreateChannels,在最后一次资源不足时只销毁新申请的channel

## 文档更新
<!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。-->

## 类型标签
<!--  [x] 表示选中 -->
- [ ] Bug修复
- [x] 新特性
- [ ] 性能优化
- [ ] 文档更新
- [ ] 其他,请描述:




See merge request: cann/hcomm!1750
浏览文件
master
共 0 个文件变更+0-0