aclgraph场景,支持零拷贝的算子会转为offload下发,和单算子混跑出现device展开kernel乱序的情况,当前改为aclgraph图模式下发用freestream下发kernel
<!--在这里详细描述你的改动,包括改动的原因和所采取的方法。-->NA
<!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。--> <!-- 如果这个PR不涉及Issue,可填写"NA"。-->aclgraph用例,在capture begin和end之间下发allgather和scatter测试,allgather支持零拷贝,会转为offload下发,scatter保持opbase下发
<!--描述进行了哪些测试来验证你的改动。包括但不限于构造对应xx测试用例、二级冒烟、算子泛化等。-->