分支列表 - hcomm:HCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。 - AtomGit AI社区默认分支
one_random提交于 1 天前8f5b481b
Co-authored-by: one_random<shibingchen@huawei.com>
# message auto-generated for no-merge-commit merge:
!1911 merge ccu_change into master
feat(ccu): default to open-source mode
Created-by: one_random
Commit-by: one_random
Merged-by: cann-robot
Description: ## 描述
新特性:a5 ccu展开模式hcomm默认走开源开放架构
### 1. 实现完整切换需要与最新HCCL仓配合
### 2. 添加临时环境变量HCCL_CCU_CUSTOM_OP_MODE以支持前向兼容
HCOMM 在首个通信域初始化前检查未配置HCCL_CCU_CUSTOM_OP_MODE时,主动配置HCCL_CCU_CUSTOM_OP_MODE=1,提示HCCL仓当前为开源CCU版本
如果用户主动配置该环境变量,则HCOMM不处理,通过配置非1的值,可以控制HCOMM走legacy模式CCU
#### 场景1:新HCCL + 新HCOMM
- 用户不配置,HCOMM配置CUSTOM_OP=1(或用户配置为1亦可),HCCL检查后,走开源流程;
- 用户配置非1,HCOMM不处理,HCCL检查后,走legacy流程
#### 场景2:新HCCL + 旧HCOMM
- 用户不配置,HCOMM无处理逻辑不配置,HCCL检查后,走legacy流程;
- 用户主动配置CUSTOM_OP=1,HCCL走开源流程,因CCU平台层为初始化,失败,用户在旧的不支持开源流程的CCU上执行
- 用户主动配置CUSTOM_OP为非1,HCCL走legacy流程,HCOMM支持
#### 场景3:旧HCCL + 新HCOMM
- 用户不配置,HCOMM配置CUSTOM_OP=1(或用户配置为1亦可),HCCL无检查逻辑,走legacy流程,HCOMM支持,但因新老通信域资源隔离,可能导致多通信域多算子等复杂场景下legacy流程回退成AICPU
- 用户配置非1,HCOMM不处理,按legacy逻辑处理,HCCL不检查后,默认走legacy流程
### 3. 对公共的MAX_MODULE_DEVICE_NUM从32扩容成65,支持A5组网最大设备号从超过32的场景
## 关联的Issue
<!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。-->
<!-- 如果这个PR不涉及Issue,可填写"NA"。-->
## 测试
<!--描述进行了哪些测试来验证你的改动。包括但不限于构造对应xx测试用例、二级冒烟、算子泛化等。-->
## 文档更新
<!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。-->
## 类型标签
<!-- [x] 表示选中 -->
- [x] Bug修复
- [x] 新特性
- [ ] 性能优化
- [ ] 文档更新
- [ ] 其他,请描述:
See merge request: cann/hcomm!1911 活跃分支5
yangshaohua提交于 1 天前aac26a55
Co-authored-by: yangshaohua<yangshaohua7@huawei.com>
# message auto-generated for no-merge-commit merge:
!1919 merge a5_pcie_open_430 into 9.1.0-beta.1
a5 pcie open source
Created-by: yangshaohua
Commit-by: yangshaohua
Merged-by: cann-robot
Description: ## 描述
A5 PCIE标卡链路适配开源流程
## 关联的Issue
<!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。-->
<!-- 如果这个PR不涉及Issue,可填写"NA"。-->
## 测试
<!--描述进行了哪些测试来验证你的改动。包括但不限于构造对应xx测试用例、二级冒烟、算子泛化等。-->
## 文档更新
<!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。-->
## 类型标签
<!-- [x] 表示选中 -->
- [ ] Bug修复
- [ ] 新特性
- [ ] 性能优化
- [ ] 文档更新
- [ ] 其他,请描述:
See merge request: cann/hcomm!1919 gcw_xljEvKEv提交于 1 天前8a0a909f
Co-authored-by: gcw_xljEvKEv<zenglingshun@h-partners.com>
Co-authored-by: liuwanke152<liuwanke1@hisilicon.com>
# message auto-generated for no-merge-commit merge:
!1904 merge bugfix900 into 9.0.0
aiv aclgraph qp overflow
Created-by: liuwanke152
Commit-by: liuwanke152;gcw_xljEvKEv
Merged-by: cann-robot
Description: ## 描述
aiv aclgraph场景qp overflow问题&算子执行卡死问题修复
正常逻辑:aclgraph场景QP资源是不复用的,每个算子都会独立申请QP资源
bug修复: aclgraph场景,CollAllReduceSmallCountAivRdmaExecutor误走进A+X场景PCIE分支,认为不使用RDMA,导致RDMA qp资源未重新申请,最终导致QP复用引发QP overflow
## 关联的Issue
<!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。-->
<!-- 如果这个PR不涉及Issue,可填写"NA"。-->
## 测试
<!--描述进行了哪些测试来验证你的改动。包括但不限于构造对应xx测试用例、二级冒烟、算子泛化等。-->
## 文档更新
<!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。-->
## 类型标签
<!-- [x] 表示选中 -->
- [ ] Bug修复
- [ ] 新特性
- [ ] 性能优化
- [ ] 文档更新
- [ ] 其他,请描述:
See merge request: cann/hcomm!1904 cann-robot提交于 5 天前1fa867cc
Co-authored-by: dingzhiqiang<dingzhiqiang3@huawei.com>
# message auto-generated for no-merge-commit merge:
!1752 merge 8.5.0 into 8.5.0
MR register bugfix
Created-by: EternallyDarkSky
Commit-by: dingzhiqiang
Merged-by: cann-robot
Description: ## 描述
<!--在这里详细描述你的改动,包括改动的原因和所采取的方法。-->
## 关联的Issue
<!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。-->
<!-- 如果这个PR不涉及Issue,可填写"NA"。-->
## 测试
<!--描述进行了哪些测试来验证你的改动。包括但不限于构造对应xx测试用例、二级冒烟、算子泛化等。-->
## 文档更新
<!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。-->
## 类型标签
<!-- [x] 表示选中 -->
- [ ] Bug修复
- [ ] 新特性
- [ ] 性能优化
- [ ] 文档更新
- [ ] 其他,请描述:
See merge request: cann/hcomm!1752 liuhaoyu35提交于 25 天前95942db8
Co-authored-by: liuhaoyu35<liuhaoyu35@huawei.com>
# message auto-generated for no-merge-commit merge:
!1485 merge aiv-only-cache-9.0-beta2 into 9.0.0-beta.2
aiv cache add aiv_only
Created-by: jl1431
Commit-by: liuhaoyu35
Merged-by: cann-robot
Description: ## 描述
<!--在这里详细描述你的改动,包括改动的原因和所采取的方法。-->
aiv cache add aiv_only反合9.0.0-beta2分支
## 关联的Issue
<!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。-->
<!-- 如果这个PR不涉及Issue,可填写"NA"。-->
NA
## 测试
<!--描述进行了哪些测试来验证你的改动。包括但不限于构造对应xx测试用例、二级冒烟、算子泛化等。-->
## 文档更新
<!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。-->
## 类型标签
<!-- [x] 表示选中 -->
- [x] Bug修复
- [ ] 新特性
- [ ] 性能优化
- [ ] 文档更新
- [ ] 其他,请描述:
See merge request: cann/hcomm!1485 one_random提交于 1 天前8f5b481b
Co-authored-by: one_random<shibingchen@huawei.com>
# message auto-generated for no-merge-commit merge:
!1911 merge ccu_change into master
feat(ccu): default to open-source mode
Created-by: one_random
Commit-by: one_random
Merged-by: cann-robot
Description: ## 描述
新特性:a5 ccu展开模式hcomm默认走开源开放架构
### 1. 实现完整切换需要与最新HCCL仓配合
### 2. 添加临时环境变量HCCL_CCU_CUSTOM_OP_MODE以支持前向兼容
HCOMM 在首个通信域初始化前检查未配置HCCL_CCU_CUSTOM_OP_MODE时,主动配置HCCL_CCU_CUSTOM_OP_MODE=1,提示HCCL仓当前为开源CCU版本
如果用户主动配置该环境变量,则HCOMM不处理,通过配置非1的值,可以控制HCOMM走legacy模式CCU
#### 场景1:新HCCL + 新HCOMM
- 用户不配置,HCOMM配置CUSTOM_OP=1(或用户配置为1亦可),HCCL检查后,走开源流程;
- 用户配置非1,HCOMM不处理,HCCL检查后,走legacy流程
#### 场景2:新HCCL + 旧HCOMM
- 用户不配置,HCOMM无处理逻辑不配置,HCCL检查后,走legacy流程;
- 用户主动配置CUSTOM_OP=1,HCCL走开源流程,因CCU平台层为初始化,失败,用户在旧的不支持开源流程的CCU上执行
- 用户主动配置CUSTOM_OP为非1,HCCL走legacy流程,HCOMM支持
#### 场景3:旧HCCL + 新HCOMM
- 用户不配置,HCOMM配置CUSTOM_OP=1(或用户配置为1亦可),HCCL无检查逻辑,走legacy流程,HCOMM支持,但因新老通信域资源隔离,可能导致多通信域多算子等复杂场景下legacy流程回退成AICPU
- 用户配置非1,HCOMM不处理,按legacy逻辑处理,HCCL不检查后,默认走legacy流程
### 3. 对公共的MAX_MODULE_DEVICE_NUM从32扩容成65,支持A5组网最大设备号从超过32的场景
## 关联的Issue
<!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。-->
<!-- 如果这个PR不涉及Issue,可填写"NA"。-->
## 测试
<!--描述进行了哪些测试来验证你的改动。包括但不限于构造对应xx测试用例、二级冒烟、算子泛化等。-->
## 文档更新
<!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。-->
## 类型标签
<!-- [x] 表示选中 -->
- [x] Bug修复
- [x] 新特性
- [ ] 性能优化
- [ ] 文档更新
- [ ] 其他,请描述:
See merge request: cann/hcomm!1911