描述
新特性:a5 ccu展开模式hcomm默认走开源开放架构
1. 实现完整切换需要与最新HCCL仓配合
2. 添加临时环境变量HCCL_CCU_CUSTOM_OP_MODE以支持前向兼容
HCOMM 在首个通信域初始化前检查未配置HCCL_CCU_CUSTOM_OP_MODE时,主动配置HCCL_CCU_CUSTOM_OP_MODE=1,提示HCCL仓当前为开源CCU版本
如果用户主动配置该环境变量,则HCOMM不处理,通过配置非1的值,可以控制HCOMM走legacy模式CCU
场景1:新HCCL + 新HCOMM
- 用户不配置,HCOMM配置CUSTOM_OP=1(或用户配置为1亦可),HCCL检查后,走开源流程;
- 用户配置非1,HCOMM不处理,HCCL检查后,走legacy流程
场景2:新HCCL + 旧HCOMM
- 用户不配置,HCOMM无处理逻辑不配置,HCCL检查后,走legacy流程;
- 用户主动配置CUSTOM_OP=1,HCCL走开源流程,因CCU平台层为初始化,失败,用户在旧的不支持开源流程的CCU上执行
- 用户主动配置CUSTOM_OP为非1,HCCL走legacy流程,HCOMM支持
场景3:旧HCCL + 新HCOMM
- 用户不配置,HCOMM配置CUSTOM_OP=1(或用户配置为1亦可),HCCL无检查逻辑,走legacy流程,HCOMM支持,但因新老通信域资源隔离,可能导致多通信域多算子等复杂场景下legacy流程回退成AICPU
- 用户配置非1,HCOMM不处理,按legacy逻辑处理,HCCL不检查后,默认走legacy流程
3. 对公共的MAX_MODULE_DEVICE_NUM从32扩容成65,支持A5组网最大设备号从超过32的场景
关联的Issue
<!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。-->
<!-- 如果这个PR不涉及Issue,可填写"NA"。-->
测试
<!--描述进行了哪些测试来验证你的改动。包括但不限于构造对应xx测试用例、二级冒烟、算子泛化等。-->
文档更新
<!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。-->
类型标签
<!-- [x] 表示选中 -->