ZXUN xGW会话数不均衡的故障分析
故障现象
某区域部署了两套xGW,权重相同。通常,两套xGW上的会话数是一样的,从某天开始2套xGW的会话数出现了差异,并且差异越来越大,如下图所示。
故障分析
查看PGW会话测量的性能数据:
a. Times of session creation request性能统计数据,如下图所示。
b. Times of session delete request性能统计数据,如下图所示。
c. Times of PGW-initiated default bearer deletion request性能统计数据,如下图所示。
根据性能统计数据发现是PGW主动发起释放会话的次数出现了巨大的差异,导致两套xGW的会话数出现差异。
分析PGW发起释放的原因,主要分为以下几种:
a. OCS发送ASR主动要求释放,统计数据如下图所示。
b. OCS没有应答CCR导致PGW释放(CCFH=terminate),统计数据如下图所示。
c. OCS回复的Non-2xxx结果码导致PGW释放,统计数据如下图所示。
根据统计数据分析,排除以上三种可能引起PGW发起释放的原因。
Gx接口:PCRF发送RAR携带Session-Release-Cause原因值,要求PGW发起释放,查看RAR消息的差异,如下图所示,根据统计数据分析,可以排除该种原因。
由于Sesssion-Time或者Idle-Time而发起的释放,检查两套xGW的配置差异,发现vGW61的session-time为1440,vGW62的session-time为4320,如下图所示。
由于vGW61局的session-time比较小,vGW61局的会话数被释放得比较频繁,被释放的用户平均接入到两套xGW,因此导致vGW61局的会话数减少,vGW62局的会话数增加。
故障处理
查看操作日志,发现session-time值被认为修改,从4320修改为1440,如下所示:
StartTime: 1600 06-25-2024 EndTime: 1600 06-25-2024 FlowID: 588382 VtyNo: vty0 UserName: UserLevel: 15 IP: 10.17.120.30 HostName: SPBDGZ061 Result: success CMDLevel: 15 CMDLine: session-time 1440 local disable roaming disable
综上分析,两套xGW的会话数差异的原因是session-time被人为修改导致。
将两套xGW的session-time修改为相同的值,问题解决。