1、【Hcomm仓】HCCL支持通信域初始化阶段ccu资源占用失败后回退到aicpu_ts模式 通信域初始化阶段可配置CCU引擎模式,初始化时会占用一部分CCU资源,供后续ccu通信算子使用。如果因CCU资源不足或CCU驱动已被其他进程拉起导致资源占用失败,则需要将通信域的模式做回退,可能的回退如下: 1)从CCU_MS模式回退到CCU_SCHE模式(MS相关资源不足) 2)从CCU_SCHE模式回退到AICPU_TS模式(SCHED资源不足或CCU重复拉起) 3)从CCU_MS模式回退到AICPU_TS模式(CCU重复拉起)
2、【Hcomm仓】HCCL支持算子下发阶段因CCU资源不足导致失败后,返回特定错误码,并释放已申请成功的前序资源 CCU资源申请或占用失败后,释放当前算子本次下发过程中已经新申请或新占用成功的资源,不释放和前序算子复用的资源,向上返回HCCL_E_UNAVAIL错误码
3、适配MC2场景新老通信域混跑
HLT验证:
| 测试用例 | 测试预期结果 |
|---|---|
| 创建两个CCU MS通信域 | 一个MS通信域,另一个回退到SCHED |
| 创建6个CCU MS通信域 | 一个MS通信域,4个SCHED通信域,1个AICPU通信域 |
| 8P环境,6个CCU MS通信域 | 初始化后:一个MS通信域,4个SCHED通信域,1个AICPU通信域;建链时:第四个建链的SCHED通信域由于wqebb不足回退到AICPU重新下算子 |
LLT验证: 测试Init时用户未配置展开模式时,读取环境变量配置 测试Init时ccu驱动拉起失败回退到aicpu 测试Init时ccu ms资源不足回退到sched 测试Init时ccu ms和sched资源不足回退到aicpu 测试Init在申请资源时出现其他报错时失败 测试BatchCreateChannels在资源不足时销毁新申请的channel 测试多次调用BatchCreateChannels,在最后一次资源不足时只销毁新申请的channel