描述
- 去除轮询日志防止刷屏
- 调整了A5通信域的销毁顺序,保证dpustream在销毁是优先停止,防止dpu stream访问了已被销毁的资源导致core dump
- host网卡适配支持子通信域,在子通信域的Init函数中添加相关初始化流程,以及使用一个静态全局变量统计单个进程内创建的通信域数量,只在析构最后一个通信域的时候调用一次rtResetXpuDevice
关联的Issue
【DTS2026033142318, DTS2026033128630】:host网卡适配子通信域
【DTS2026040223697】: notifywait日志刷屏
【DTS2026040328167】:用例异常退出时,dpu stream仍在执行算子导致core dump
测试
使用修改前后的代码版本进行测验:
- 修改后,在950环境中运行host网卡多通信域的sendrecv算子,能正常在子通信域中像dpu stream注册算子任务
- 修改后,在950环境中运行模拟异常host网卡用例(一个进程昨晚AG后不进行流同步就直接到HcclCommDestroy),除了正常打印报错日志,还能正常完成资源销毁,不发生core dump
- 修改后,在950环境中运行host网卡通信算子,不会产生大量的notifywait日志刷屏
- 手动跑RDV用例,除test_hccl_evb_aicpu_opbase_0001为已知问题用例,其余正常通过
文档更新
不涉及
类型标签
<!-- [x] 表示选中 -->