网络故障容易引起信令风暴,进而对网络的稳定运行造成冲击。通过增强5GC网元功能可降低网络故障的影响、减少信令风暴的产生,提升网络健壮性。重点研究了AMF主备网元用户动态数据热备和5GC免UDM惯性运行增强功能,并基于实验室环境进行了测试验证。初步验证了该功能的有效性和可行性,为进一步开展现网测试验证提供了参考依据。
作者:张欣 朱晓林 等
来源:邮电设计技术
原文:https://mp.weixin.qq.com/s/Z-mFkWKeM2suoKHQ4Mf0Vg
引 言
随着通信网络的IP化和云化演进,网络故障的影响范围扩大。当发生网络故障时,故障点可能对大量用户业务形成“堰塞湖”效应,并在故障解除时触发瞬间的信令冲击。为了降低网络故障的影响、减少信令风暴的产生,需进一步增强网元功能,提升网络健壮性。本文主要对AMF主备网元用户动态数据热备功能和5GC免UDM惯性运行功能进行研究,提出5GC网元功能增强方案。
01 网络功能增强解决方案
1.1 AMF主备网元用户动态数据热备功能
AMF主备网元之间保持用户动态数据的同步,发生主备倒换后,备用网元有用户动态数据,用户无需重新注册,无注册浪涌信令,减少对各网元的信令冲击。
正常工作状态,AMF将用户上下文状态数据同时保存到其备份AMF中。当AMF故障后,周边网元把用户消息发送给备份AMF,备份AMF查询用户上下文状态数据,继续处理用户业务流程,从而保障了业务连续性。同时,由于UE不用重新注册就能使业务继续,无注册浪涌信令,减少了对各网元的信令冲击。
周边网元发送至AMF的消息包括从RAN发起和其他5GC网元发起2类,其中RAN侧主动发起的业务流程如图1所示。
a)为AMF1(原AMF)配置备份的AMF2(备份AMF),AMF1将Served GUAMI以及Backup AMF信息下发给gNodeB。AMF2通过NF注册流程将其备份的GUAMI保存到NRF中,供其他NF获取。
b)用户接入网络并进行业务流程处理。AMF1在业务处理流程中,将用户上下文状态数据同步到AMF2中,AMF2保存同步数据。
c)当AMF1发生故障时,UE发起业务请求,gNodeB发送消息无响应,gNodeB识别并判定AMF1故障,将用户的请求消息发送给AMF2。AMF2接收用户请求后,判断其原为AMF1所处理的用户,从保存数据中获取用户上下文状态数据,并继续处理此用户的相关业务流程。AMF2为用户重新分配5G-GUTI,向gNodeB发送更新5G-GUTI及AMF UE NGAP ID的消息,后续此用户业务由AMF2进行处理。AMF2与其他NF交互,其他NF接收消息后,识别AMF1故障,后续与AMF2交互处理此用户相关业务流程。
d)后续此UE的业务将在AMF2正常处理。
周边5GC网元主动发起的业务流程如图2所示。
a)正常业务处理流程中,UE1用户的业务由AMF1处理。业务流程处理完毕,AMF1将用户上下文状态数据同步到为其备份的AMF2中,AMF2保存同步数据。
b)当AMF1发生故障时,无法正常向NRF 发送Heartbeat保活机制的更新消息,NRF识别并判定AMF1故障。NRF向订阅了原AMF状态的NF发送状态变更通知消息(原AMF故障)。周边NF如SMF、PCF等在本地没有备份AMF信息的情况下,可向NRF执行AMF发现流程,用于获取原AMF的备份AMF信息。
c)周边NF如SMF、PCF等在需要主动发起业务流程的情况下,选择故障AMF1(即原AMF)的备份AMF(AMF2),将业务消息发送给AMF2。AMF2接收业务消息后,判断其原为AMF1所处理的用户,从保存的数据中获取UE1用户上下文状态数据,并继续处理此用户的相关业务流程。AMF2为用户重新分配5G-GUTI,向gNodeB发送消息更新5G-GUTI及AMF UENGAP ID的消息,后续此用户业务由AMF2进行处理。AMF2与其他NF(如PCF)交互,继续处理此用户业务流程。其他NF接收消息后,识别AMF1故障,后续与AMF2交互处理此用户相关业务流程。AMF2与UDM交互,通知AMF2成为此用户的服务AMF,UDM保存相关信息,同时与备份AMF交互处理此用户相关业务流程。
d)后续UE1的业务由AMF2进行处理。
1.2 5GC免UDM惯性运行功能
5GC免UDM惯性运行功能主要针对AMF和SMF网元,包含4个部分,即故障检测、故障后处理、故障恢复检测、故障恢复处理。
1.2.1 故障检测
AMF、SMF支持如下方式检测UDM是否故障:基于NRF状态通知、本地NF状态检测、基于响应状态码和错误码。
1.2.1.1 基于NRF状态通知
基于NRF状态通知适用于直连组网、SCP C组网模式。如图3所示,AMF、SMF向NRF订阅UDM状态变更通知,当NRF检测到UDM状态由正常状态变换为故障状态后,触发NF状态通知,告知AMF、SMF新的UDM状态。AMF、SMF故障检测机制相同,以AMF为例进行说明,流程如下:
步骤 1:AMF向NRF发送订阅请求Nnrf_NFManagement_NFStatusSubscribe Request,携带需要订阅的UDM。
步骤 2:NRF保存订阅信息,并返回响应Nnrf_NFManagement_NFStatusSubscribe Response。
步骤 3:NRF检测到UDM状态变为故障态,比如通过本地NF检测。
步骤 4:NRF触发NF状态通知NnrfNF_Management_NFStatusNotify给AMF,携带UDM最新状态。
1.2.1.2 本地NF状态检测
本地NF状态检测仅适用于直连组网模式。通过定时向目标NF发起HTTP PING检测消息,以确认目标NF是否正常,如图4所示。
步骤1:AMF定时向UDM触发HTTP PING检测。
步骤2:AMF等待HTTP PING响应超时次数超过门限,判定UDM故障,将对应UDM加入到故障列表中。
1.2.1.3 基于响应状态码和错误码
基于响应状态码和错误码适用于SCP D 组网模式。如图5所示,AMF基于SCP/UDM返回响应的HTTP状态码以及应用错误码,判断UDM 是否故障。UDM bypass是一个定制功能,为了防止该功能对原有功能产生影响,建议SCP检测到UDM故障时,返回状态码502以及应用错误码bypass。其中,bypass为自定义的应用错误码。流程如下:
步骤 1:SCP通过本地状态检测或者NRF状态通知,检测到UDM已经故障。
步骤2:AMF收到用户业务且需要和UDM交互,比如向UDM请求签约数据,则发送用户业务请求消息给SCP。
步骤3:SCP根据本地已保存的UDM状态信息,判定用户归属的UDM已全部故障,则回复用户业务失败响应,携带已经规划的指示UDM全故障的状态码或应用层错误码。AMF收到该失败响应后,判断用户归属的UDM故障。
1.2.2 故障后处理
如图6所示,AMF、SMF检测到UDM故障,则启用本地缓存的用户签约数据或本地配置的签约数据,跳过UDM注册、订阅以及请求签约数据过程,继续用户当前信令业务,触发用户进入bypass状态。AMF、SMF故障后处理机制相同,以AMF为例进行说明,流程如下:
步骤1:UE触发业务请求,比如用户从4G移动到5G,或者从其他AMF回到本AMF,或者本局重新初始注册等。
步骤2:AMF已通过本地NF检测、NRF状态通知等方式,检测到用户归属的UDM全部故障。
步骤3:若AMF根据步骤2判断用户归属UDM全部故障后,触发用户进入bypass状态,跳过用户鉴权、UDM注册、UDM订阅、向UDM请求签约数据。若AMF本地未缓存用户签约数据,则启用本地配置的签约数据。
步骤4:用户信令业务继续,给UE回复成功响应。
1.2.3 故障恢复检测
AMF、SMF支持3种方式检测UDM是否故障恢复:基于NRF状态通知、本地NF状态检测、基于响应状态码和错误码。
1.2.3.1 基于NRF状态通知
如图7所示,AMF、SMF向NRF订阅UDM状态变更通知,当NRF检测到UDM状态由正常状态变换为故障状态后,触发NF状态通知,告知AMF、SMF新的UDM状态。AMF、SMF故障恢复检测机制相同,以AMF为例进行说明,流程如下:
步骤1:AMF已经检测到UDM故障,且AMF已经向NRF订阅了UDM状态。
步骤2:UDM从故障状态恢复为正常状态。
步骤3:NRF通过本地NF检测或者UDM主动触发更新流程,判定UDM已经从故障态恢复为正常状态。
步骤 4:NRF触发NF状态通知NnrfNF_Manage-ment_NFStatusNotify给AMF,携带UDM最新状态。
1.2.3.2 本地NF状态检测
如图8所示,通过定时向检测到的故障NF 发起HTTP PING检测消息,以确认目标NF是否正常。本地NF状态检测流程如下。
步骤1:UDM已经从故障态恢复。
步骤 2:AMF定时向检测到的故障UDM触发HTTP PING REQUEST。
步骤 3:UDM回复响应HTTP PING RESPONSE。AMF判定UDM 已经恢复,从NF故障列表中将对应UDM移除。
1.2.3.3 基于响应状态码和错误码
如图9所示,AMF基于SCP返回响应的HTTP状态码以及应用错误码,判断UDM是否恢复。流程如下:
步骤1:UDM已经从故障态恢复。
步骤2:SCP已通过故障检测机制,比如本地NF检测机制,检测到UDM已经恢复。
步骤3:AMF定时扫描bypass状态用户,触发用户级检测请求消息,该请求消息经过SCP转发给UDM。
步骤 4:UDM回复响应消息,经过SCP转发给AMF。若为成功响应,或者虽然为失败响应但消息中未携带指示UDM故障的状态码以及应用层错误码,则AMF判定用户归属的UDM已经恢复。
1.2.4 故障恢复处理
AMF定时扫描bypass状态用户,通过故障恢复检测机制,判定UDM已经恢复后,触发用户下线并重新注册。在用户重新注册时,恢复用户鉴权以及和UDM交互过程。故障恢复处理流程如图10所示。
步骤1:AMF定时扫描bypass用户。
步骤2:AMF通过故障恢复检测机制,比如NRF状态通知、本地NF通知或者用户级检测消息,判定UDM已经恢复。
步骤 3:AMF触发用户下线,下发Deregistration Request,携带re-registration required,请求用户重新注册。若用户处于空闲态,需要先触发用户寻呼。
步骤 4:UE触发注册过程,发送Registration Request给AMF。
步骤5:AMF根据本地策略判定需要鉴权用户,则触发鉴权过程。
步骤 6:AMF判断用户为bypass用户,则触发向UDM注册过程。
步骤7:AMF判断bypass用户且用户签约数据为本地配置的签约数据,则触发向UDM请求用户签约数据。
步骤 8:AMF判断用户为bypass用户,则触发向UDM订阅用户签约数据变更。
步骤9:AMF将用户退出bypass状态,继续用户注册流程。
02 测试验证
为了进一步验证本文方法的有效性,组织5G核心网主设备厂家基于实验环境进行了相关功能测试。
2.1 AMF主备网元用户动态数据热备功能测试
2.1.1 测试内容
如表1所示,针对AMF主备网元用户动态数据热备功能测试,设计了4个测试用例。
表1 AMF主备网元用户动态数据热备
功能测试表
2.1.2 测试结果
AMF主备网元用户动态数据热备功能测试情况如表2所示。
表2 AMF主备网元用户动态数据热备功能测试结果表
2.2 5GC免UDM惯性运行功能测试
2.2.1 测试内容
如表 3 所示,针对5GC免UDM惯性运行功能测试,设计了10个测试用例。
表3 5GC免UDM惯性运行功能测试表
2.2.2 测试结果
测试情况如表4所示。
表4 5GC免UDM惯性运行功能测试结果表
因测试环境原因,2个厂家都未进行用例4、用例7测试。因A厂家AMF、SMF目前暂不支持手动进入UDM bypass状态,暂未测试用例9。
2.3 测试结论总结和局限性说明
通过实验室测试验证,基本验证了AMF主备网元用户动态数据热备功能和5GC免UDM惯性运行功能的有效性和可行性,为进一步开展现网测试验证提供了参考依据。但受限于测试环境和测试版本,部分测试用例未完成测试,且异厂家的兼容性测试未进行,有待进一步测试验证。
03 结束语
面对网络故障或业务异常导致的信令风暴,通过引入AMF主备网元用户动态数据热备、5GC 免UDM惯性运行等功能,可进一步提升网络业务保障能力,规避用户大量下线、业务中断导致的信令风暴,降低信令风暴对网络的冲击,进一步提升网络的健壮性。
参考文献
[1] 邢燕霞,毛聪杰,杨静雯. 移动网信令风暴产生原因及解决方案分析[J]. 电信科学,2014,30(12):134-138.
[2] 马洪源,肖子玉,卜忠贵,等. 面向5G的核心网演进[J]. 电信科学,2019,35(9):135-143.
[3] 穆佳,王勇,马瑞涛,等. 面向3GPP R16的5G核心网演进策略研究[J]. 邮电设计技术,2022(2):1-8.
[4] 孔令义,常艳生,阎艳芳,等. 大区化5G核心网部署研究[J]. 邮电设计技术,2022(8):79-82.
[5] 孔珍. 5G核心网关键技术布局及应用[J]. 中国信息化,2022(6):57-58.
[6] 赫罡,苗杰,童俊杰. 5G核心网技术演进及挑战[J]. 中兴通讯技术,2020,26(3):23-26.
[7] IMT-2020(5G)推进组. 5G核心网云化部署需求与关键技术白皮书[R/OL].[2022-12-17]. http://www. caict. ac. cn/kxyj/qwfb/bps/201806/P020180621513752479196.pdf.
[8] 赵慧玲 . 5G 核心网技术与挑战专题导读[J]. 中兴通讯技术,2020,26(3):1-2.
[9] 韦国锐,霍晓歌. 5G时代虚拟化核心网组网架构演进[J]. 移动通信,2018,42(12):37-41.
[10] 杨炼,王悦,蒲浩杰,等 . 5G 核心网关键技术与网络云化部署[M]. 北京:人民邮电出版社,2022:101-104.
[11] 韦国锐,陈立栋,于秋思,等. 跨DC的虚拟化核心网容灾体系研究[J]. 邮电设计技术,2019(9):78-81.
[12] 刘召阳. 基于漏斗型流控算法的5G容灾策略研究[J]. 计算机产品与流通,2021(7):110-112.
[13] 杨雯,王琴,席晓乾,等. 5G核心网元UDM垂直容灾可靠性研究[J]. 信息技术时代,2022(12):122-124.
[14]李延斌. 5G核心网容灾方案及部署策略研究[J]. 邮电设计技术,2020(9):79-82.
[15]钟橙. 5G核心网容灾方案探析[J]. 数据通信,2020(1):1-2,12.
[16]刘赢,胡旋,侯磊磊,等. 关于5G核心网高可靠性及容灾能力的研究[J]. 卫星电视与宽带多媒体,2022(9):29-31.
[17] 陈俊杰,李占武,陶晓明,等 . 一种核心网信令处理装置:CN109495855A[P]. 2019.
[18] 周奇,谢晓军,陈长怡,等 . 信令监测方法,系统和存储介质:CN202111533372.7[P]. 2022.
作者简介
张欣,毕业于西安邮电学院,高级工程师,学士,主要从事5GC网络的维护工作;
朱晓林,毕业于北京邮电大学,高级工程师,硕士,主要从事移动核心网建设与维护工作;
滕佳欣,毕业于北京邮电大学,高级工程师,硕士,主要从事5GC网络的建设工作;
刘凡栋,毕业于南京邮电大学,高级工程师,学士,主要从事移动核心网咨询规划和设计工作。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。