CANN/

hcomm

公开

HCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。

496
代码Commits分支Pull Requests213讨论
提交b0e6a8b7
Wwangkl创作于 2 个月前·Ccann-robot提交于 2 个月前
1 Parent(s):b622a1fe
fix ffts bug for deter pipeline
Co-authored-by: wangkl<wangkailang1@huawei.com>



# message auto-generated for no-merge-commit merge:
!439 merge fix_bug into master

fix ffts bug for deter pipeline

Created-by: wangkl
Commit-by: wangkl
Merged-by: cann-robot
Description: ## 描述
<!--在这里详细描述你的改动,包括改动的原因和所采取的方法。-->
allreduce在运行pipeline算法时,最后一轮的最后一张卡数据若小于2MB,则会走localreduce串行算法,但生成子图key时是用的总数据量除卡数,两者不匹配。故造成了子图复用失败。
## 关联的Issue
<!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #123-->
<!-- 如果这个PR不涉及Issue,可填写"NA"。-->

## 测试
<!--描述进行了哪些测试来验证你的改动。包括但不限于构造对应xx测试用例、二级冒烟、算子泛化等。-->
运行测试用例A+X机型,四机SDXL模型训练
## 文档更新
<!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。-->

## 类型标签
<!--  [x] 表示选中 -->
- [X] Bug修复
- [ ] 新特性
- [ ] 性能优化
- [ ] 文档更新
- [ ] 其他,请描述:




See merge request: cann/hcomm!439
浏览文件
master
共 0 个文件变更+0-0