【问题背景&根因分析】 rdma lite驱动中未正确处理qp状态,发生error cqe后(cqe中的内容部分字段可能是有问题的),lite驱动可能会错误的使用相应有问题的字段更新qp的tail指针
如果应用未感知error cqe继续调用post send下发wr可能导致驱动因tail指针异常判断为反压状态,持续反压,直到上层超时
【一句话修改方案】 由于修改driver包面临升级不及时,临时在cann包lite部分逻辑中加上异常状态判断的逻辑:轮询CQ时,若轮询到error cqe则更新qp_state为ERR,下发wr时,判断qp_state为ERR则返回报错。