Vivisecting Mobility Management in 5G Cellular Networks
Ahmad Hassan (University of Minnesota - Twin Cities), Shuowei Jin (University of Michigan), Arvind Narayanan (University of Minnesota), Ruiyang Zhu (University of Michigan), Anlan Zhang, Wei Ye (University of Minnesota), Jason Carpenter (University of Minnesota - Twin Cities), Z. Morley Mao (University of Michigan and Google), Zhi-Li Zhang, Feng Qian (University of Minnesota - Twin Cities)
摘要
随着5G支持不同的频带和不同的发布模式(如SA和NSA),移动管理,特别是切换处理,变得非常复杂。度量研究展示了高频切换将导致5G吞吐量的震荡,甚至服务不可用。为此,作者建立一个数据集,基于此提出几点分析结论,最后设计了一个预测系统Prognos来提升5G应用的QoE。作者发布了研究的相关材料。
背景
当前,4G和5G共存,5G支持不同频带、5G的cell更加密集,这些条件导致移动切换变得十分复杂。然而,高频的移动切换将导致严重的性能下降。
因此,理解当前的5G移动切换和实践十分重要。
然而,度量真实的移动切换面临如下挑战:
在有限的资源和预算下,如何研究多种5G架构(SA和NSA)、频率带宽、运营商?
如何安排不同层的数据收集任务?
如何精确测量移动切换在用户设备上的能量消耗情况?
为了克服这些挑战,实现如下测量平台: 1. 多个5G手机,可以访问美国3个主要的运营商,作者使用2种设备:Samsung Galaxy S21 Ultra 5G/SM-G998U (S21U) 和 Samsung Galaxy S20 Ultra 5G/SM-G988U (S20U)。其中,S21U设备3个,S20U设备1个。 2. 在unroot手机上的用户软件,可以捕获移动相关的信息。从智能手机获取低层信息需要获取Diag(diagnostic interface)的访问,它需要特殊的许可证和工具。作者使用Accuver XCAL来读取Qualcomm Diag,可以收集到物理蜂窝ID等信息。 3. 专业的度量工具来收集蜂窝控制平面事件。作者拓展了5G Tracker功能,实现了捕获商业5G管理的关键信息:物理蜂窝ID,移动切换和频率带宽。以上的信息从Android 11的5G API中抽取。作者使用Android TeelephonyManager的onDisplayInfoChanged() API来识别频率带宽。 4. 用外部充电宝的物理电源监视器来精确度量用户设备的电源消耗对于电量消耗的计量,作者使用Monsoon Power Monitor来完成。
分析与结论
作者使用这些技术来收集数据,并进行了分析: 1. 5G的移动切换如何影响应用?5G移动切换严重影响应用的用户体验,比4G更严重;利用NSA 5G的双模式的5G能缓解移动切换的负面作用。 2. 5G移动切换的关键特性是什么?从3个方面考察移动切换:频率、持续时间和用户设备能量消耗;NSA的5G切换频率更高;NSA的5G毫米波上切换频率更高;NSA的移动切换平均需要167ms完成。移动切换的准备阶段占据很长时间,原因是5G的复杂性和技术的不成熟性。5G的移动切换下的能量消耗是4G的10倍,和移动切换的次数是正相关的。 3. 5G切换对运营商的启发是什么?5G蜂窝网的收敛范围和移动切换是紧密相关的;NSA 5G切换不支持基站间的直接切换,导致5G-4G-5G切换,恶化了性能;4G和5G基站在同一个通信塔时,切换时间时长较短。 4. 我们可以预测5G的切换来提升应用程序的QoE吗?作者提出Prognos。它利用观测到的信号强度,用户设备的度量报告和过去的切换来预测未来的切换和他们的类型。Prognos包括两层预测流水线。它首先预测未来的信号强度,然后学习基站的切换逻辑。和单一模型相比,解耦的两层预测方法降低了模型复杂度,提升了精度。Prognos包括3个组件:report predictor module考虑移动配置和信号强度质量来预测measurement reports,decision learner module通过利用序列模式挖掘来学习特定运营商的切换策略,handover predictor module使用预测的measurement reports序列和学习的切换策略来预测切换的类型。其中,decision learner module学习运营商最新的切换逻辑。这个模块的输入是连续的measurement reports流和切换的命令。作者切分输入流为多个阶段,每个阶段包括measurement reports,后面紧跟一个切换命令。切换决定的目标是学习最新的切换烈性的模式。作者使用基于序列的模式挖掘:作者修改了prefixSpan算法实现在线学习。在每个阶段结尾,这个学习算法如果观察到旧序列就增加支持,如果遇到新序列就添加pattern。算法对比pattern的新鲜程度和设定的阈值来决定是否丢弃该pattern,保证了学习到的pattern没有急剧增长。评估结果显示,Prognos的F1-Score在0.92-0.94,超越了之前的方法1.9x-3.8x。在16K全景视频流中,Prognos比默认的吞吐量预测算法提升了34.6%-58.6%的延迟时间;在实时测定体积视频流中,Prognos增加了15.1%-36.2%的内容质量。
个人观点
当前5G切换需要考虑多种因素,例如4G和5G、SA和NSA等。 作者通过采集大量数据并分析,得出几条经验性的结论,并提出一个预测方法。然而,本人认为,该工作有2点需要考虑:
时效性强。5G的部署和改进还在进行,这意味着作者花费大量力气采集的数据可能未来3年就不再适用,因此从时间维度来看影响有限。
预测模块平凡。这里的方法只是对现有工作的简单改进,贡献有限。
Understanding 5G performance for real-world services: a content provider's perspective
Xinjie Yuan, Mingzhou Wu, Zhi Wang (Tsinghua University), Yifei Zhu (Shanghai Jiao Tong University), Ming Ma, Junjian Guo (Kuaishou), Zhi-Li Zhang (University of Minnesota – Twin Cities), Wenwu Zhu (Tsinghua University)
背景
近年来5G无论是基站数量还是用户都获得了很大的增长,仅中国就建设了115万 5G基站。根据Cisco年度互联网报告,截止2023年底 5G 连接的总带宽会提高13倍, 到2027年, 5G 会占据 49% 的移动订阅总量。过去对于5G的测量研究主要集中于NSA 5G(非独立接入5G 依靠 4G 网络设施来提供更快的速度和更高的数据带宽), 本文主要研究SA(独立接入) 5G, 且从内容提供者(CP:content provider)的视角出发,探究增加使用5G连接对于QoS/QoE的提升效果,以及为实现5G的最佳性能所需采取的配置策略。
概述
本文主要研究2300万快手用户在1年时间跨度内的流量数据。主要面临的挑战如下:1.很多网络中测量指标并不能帮助我们学习到其中5G流量的度量。2.测量中有很多的随机变量,如用户设备类别和编码方式。3.需要最小化数据收集对网络的影响。4.参与网络的第三方系统会对数据测量产生影响。 为此,作者混合了主动与被动数据收集的方法以处理不同设备和OS的区别,以及私有域方法来应对第三方运营商的影响。 其中被动的数据采集是指用户的统计数据和状态信息以时间窗口为单位(10s)被发送到日志服务器上。在记录时延时,由于用户操作系统和设备的不同,本文没有采取应用的startup delay,而是使用了连接的建立时延(如RTMP连接时延)作为测量指标。而主动的数据采集是指作者通过 traceroute进行的一些网络核心架构研究,这些研究能够揭示运营商网络中的部分特性。 最后作者提出了一个试验性的针对5G的缓冲策略,主要实现是当发生rebuff情况时,则减少用户最少缓冲时间;否则以β 的步长递增缓冲时间。
总结
实验显示SA 5G 能够提供更短的应用层面时延, 例如:对于广播能够减少 ∼60% 的 链接建立时延,且相对于4G能够减少67∼89% 的总传输时延, 提供更高的下载速度. 除此之外实验显示SA 5G 相对于 NSA 5G 有更好的性能.除此之外,5G对于 Horizontal Handovers(用户从一个基站切换到另一个基站的服务区更加敏感),当用户数量增加时SA 5G 的下载速度可能会降低。 最后作者还提供了一些不同于conventional wisdom的发现,例如使用5G不一定会比4G更加耗能;SA 5G 的用户会 “更接近于”(经过的路由跳数更少)核心网络. 然而这种“接近”并不一定意味着与服务端交互的RTT会更短。
个人观点
本文对于5G网络的多项指标进行了详尽的测量,具有相当的工作量。对于数据收集中的挑战,采用了passive data collection以及 private field insersion。本文的测量结果总体上肯定了SA 5G在4G基础上的性能提升,并且对于NSA 5G 先前的一些conventional wisdom进行了辩证的否定,推进了对于有关领域的认知。 同时基于这些认知,本文提出了一种支持5G的视频缓冲策略,在快手900万用户的测试中平均减少了7% 的缓冲时间,体现了对于实际应用的指导作用。
Mobile Access Bandwidth in Practice: Measurement, Analysis, and Implications
Xinlei Yang, Hao Lin, Zhenhua Li (Tsinghua University), Feng Qian (University of Minnesota - Twin Cities), Xingyao Li, Zhiming He, Xudong Wu, Xianlong Wang, Yunhao Liu (Tsinghua University), Tianyin Xu (University of Illinois at Urbana-Champaign)
本篇文章系统调研了中国用户的移动网络接入带宽,发现了一些令人惊讶的事实,并揭示了该现象背后的深层原因。此外,本文还提出了一种快速轻量的带宽测试技术,显著降低了测试时间和运维成本。本篇文章是清华大学李振华老师团队与杭州友声科技公司的合作研究,合作单位还有明尼苏达大学和伊利诺伊大学厄巴纳-香槟分校。
背景
近年来,移动接入技术取得了重大的进展,例如最新的5G和WiFi 6E技术,分别可以达到20Gbps和9.6Gbps的接入带宽。虽然这些新兴无线技术正在全球范围内被积极、广泛地部署,但是大规模的带宽测试结果显示,截至2021年底,美国的5G带宽中值仅为135Mbps,中国的5G带宽中值仅为304Mbps,且美国和中国的WiFi带宽中值仅为137Mbps和153 Mbps。由此观之,在实际场景下这些新兴技术的部署与使用并没有充分造福普通移动终端用户。 理解上述现象的背后深层次原因是优化当今移动网络的第一步。然而,受限于移动网络协议栈的复杂性、异构移动生态系统的庞杂性以及大规模高效测量手段的匮乏,现有对移动网络的测量研究通常存在测量规模局限或分析深度不足的问题,严重阻碍了我们对当今移动网络的深入理解。
设计
本篇文章的调研工作是基于一个名为UUSpeedTest(BTS-APP)的安卓带宽测速应用完成的,该软件拥有约1700万的用户(主要在中国),以及每天约有20万的测试请求。在保护用户隐私的前提下,作者团队通过使用BTS-APP轻量级的持续收集带宽测试数据,实现了超大规模的网络测量。其中,作者对BTS-APP进行了两方面的改进,一方面是通过捕获物理层和链路层协议数据,实现了细粒度的网络测量与分析;另一方面是提出了一种基于UDP的猝发式快速带宽测试技术,减少测试时间与运维成本。下面,分为调研结果分析和带宽测试技术改进两部分对文章进行介绍。
调研结果分析
经过4个月的数据采集,总共接收到了约354万个用户的2363万条带宽测试请求,且99.7%的测试请求来源于中国,包含了WiFi、3G、4G、5G四种不同的测试类型。此外,文章还参考了BTS-APP其他时段的数据报告,用于分析其他时间段的数据。 整体上看,调研结果体现了一下几个特征(结果见下图) 1. 蜂窝网络(包括4G和5G网络)的接入带宽不但没有随着5G规模部署而提升,反而出现了下降情况,其主要是由过度激进的4G->5G频谱资源重耕导致的。 2. 城市地区的蜂窝网络接入带宽高于乡村地区,主要是因为基础设施部署密度不同; 3. 软硬件方面,安卓系统版本会影响移动设备的接入带宽,且版本越高往往带宽越高,这是由于更高版本的系统对无线管理模块做出了相当大的改进;当低端机型和高端机型搭载相同的安卓系统版本时,其接入带宽通常不会表现出明显差异; 4. 运营商方面,由于4G基础设施部署都比较成熟,不同运营商的4G网络平均接入带宽非常接近;中国广电(ISP4)的5G网络带宽显著低于其他三个运营商,这是因为他将5G部署于较低的频段;中国电信(ISP3)则使用了更具优势的频段达到了相对更高的带宽。
对于4G网络,文章分为网络频谱资源特征、频谱资源重耕、LTE-Advanced技术部署三个方面对调研结果进行了分析(结果见下图) 1. 对于不同的移动网络频谱资源,数据表明4G网络使用的频段越高,通常网络带宽越高。但存在一个高频段的带宽较低,这是因为这个频段主要在乡村地区使用,基础设施部署比较分散。 2. 由于高频段能够提供更高的接入带宽,一些高频段频谱资源因此被重耕给5G网络使用。这导致了4G网络整体接入带宽的下降。 3. 数据显示,6.8%的4G网络带宽测试结果超过了300Mbps,与如今商用5G网络的接入带宽相当。进一步研究发现其大部分的测试地点在城市主干路上,这些地点采用了一些LTE-Advanced技术用于改善网络。
对于5G网络,文章分为频谱资源重耕、单日流量模式、信号强度三个方面对调研结果进行了分析(结果见下图) 1. 目前,总共有5个5G频段,其中有3个是来自4G网络的重耕频段,数据显示重耕频段带宽一般低于其他5G专用频段。不过在重耕频段中,N41频段具有相比未重耕频段更高的带宽,这是因为4G的B41频段中的高频部分被划分为了N41。总的来说,频谱资源重耕也是导致5G带宽下降的一个重要原因。 2. 对于单日内的不同时间段,往往使用人数比较多的时间段平均接入带宽比较低。不过,当用户数量相当时,部分晚上时段的平均接入带宽明显低于白天时段。这是由于5G基站使用了节能策略,会在21时至次日9时针对部分5G基站启用“睡眠模式”来减少5G基站的功耗。 3. 数据显示,信号强度并不一定正比于接入带宽。作者通过分析发现信号强的地方,往往使用人数比较多,基站部署部署较为密集,容易存在存在基站间信号干扰、负载均衡、越区切换的问题导致带宽下降。
对于WiFi网络,数据显示随着WiFi技术的飞速发展(4->5->6),WiFi网络的平均接入带宽却几乎停滞不前。其中WiFi 5相比WiFi 4技术得到的提升,主要是来源于5GHz频段的使用。此外,数据可以推断出64%的WiFi用户仍在使用200Mbps的有线带宽接入。因此,实际场景下发展缓慢的固定宽带成为了WiFi 5和WiFi 6的达到高接入带宽的最大阻碍。 总的来说,从数据结果可以看到,虽然新兴技术(5G和WiFi 6)确实可以达到较高的带宽,但目前用户主要使用的仍然是传统技术(4G和 WiFi 4/5),且4G和5G技术之间存在资源竞争,导致产生了一定的带宽下降。因此,作者倡导使用更有效的重耕技术,促进更好的资源利用,以及扩大LTE-Advanced技术的使用,以具有高成本效益的方式改进LTE基础设施的部署。此外,作者还呼吁用户保持理性,应该了解5G的实际性能以及系统版本对带宽的重要性。 带宽测试技术改进:目前,主流的带宽测速软件采用的是一种泛洪式带宽探测技术,然而该技术会受到TCP慢启动机制的影响,在慢启动过程中的收集的带宽数据对于估算用户接入带宽是无效的。并且且这些数据如果没有被正确过滤,将会严重影响的测试结果的准确性。虽然部分先前工作已经提出了一些解决方法,但测试开销和准确性仍然会收到TCP慢启动机制的影响。 调研数据显示,不同的无线接入技术的接入带宽分布符合独立的多模态高斯分布。基于该观察,作者提出了一种新的带宽测试技术Swiftest,通过使用概率模型指导带宽探测的初始数据速率的选择,从而避免 TCP 慢启动中的长时间加速。此外,为了在大规模场景下实现上述设计,Swiftest将传输协议从 TCP 更改为 UDP。 经过一个月的线上测试,Swiftest相比BTS-APP可以使用更快的速度以及更小的网络容量完成精确的带宽测试(结果见下图)。
此外,Swiftest还与其他最先进的带宽测试技术进行了比较,结果显示无论是在效率、网络容量使用还是准确性方面,都是Swiftest最优(结果见下图)。
个人观点
本篇文章具有非常强的现实意义,其通过完整的调研发现了一些惊讶的事实,例如近年来4G,5G,WiFi网络的平均接入带宽不但没有随着无线技术的飞速发展与基础设施的全面升级而上升,反而出现了停滞不前甚至下降的现象。针对这一反常现象,作者通过大规模测量分析,诊断出其背后的深层次原因,并提出了一系列可能的改进方案。同时,利用上述测量分析结果,本文还提出了一个轻量快速的带宽测试方案,可以提升测试效率与节约运维成本。通过线上大规模测试与在受控环境中的基准实验,本文证明了Swiftest相比于行业主流带宽测量系统的巨大优势。在线上大规模实验验证带宽测试准确性时,使用BTS-APP的测试结果作为基准。考虑到BTS-APP也存在一定程度上的准确性问题,一个可能的改进方向是进一步精细化地验证Swiftest在广泛场景下的测试精度。
SEED: A SIM-Based Solution to 5G Failures
Jinghao Zhao, Zhaowei Tan, Yifei Xu, Zhehui Zhang, Songwu Lu(University of California, Los Angeles)
这篇文章来自加利福尼亚大学洛杉矶分校团队的研究者。它为5G故障诊断和处理提出了一种基于SIM的新型解决方案——SEED。
背景
随着5G移动网络的不断推出,故障正在成为常态。如果无人看管,它们会影响移动用户体验和应用程序的正常执行。而现有的5G故障解决方案在设备上采用基于调制解调器的方案或者以操作系统为中心的方法,但这些方案只能进行粗粒度的诊断,并不适用于复杂的5G故障情况。因此,本文为5G故障诊断和处理提供了一种基于SIM的新型解决方案——SEED。它通过利用当前标准化的5G错误代码和决策树/在线学习算法来推断故障的原因,然后进一步采取相应的多层重置操作(重置协议操作、刷新过时的配置、重新加载配置文件等)。
设计
SEED整体系统图如下:
首先,SIM 接收来自应用程序 (1a) 和网络 (1b) 的故障报告。故障报告包括网络侧诊断等故障线索、更新配置的说明、设备侧故障详情(无连接、DNS/UDP故障等)。有了这些线索,SIM 将执行本地诊断,做出处理决策,并在设备 (2a) 或网络 (2b) 处触发恢复操作。SEED 在其基于 SIM 的设计中解决了三个问题: SIM 如何以低开销查明故障?研究者确保该解决方案在资源受限的 SIM 硬件上是可行的。为此,SEED 将标准化故障原因与来自基础架构的最新配置以及来自设备的操作系统/应用程序故障报告相结合。SEED 通过有限的 SIM 处理和存储进一步执行细粒度的故障诊断。 SIM 如何处理不同阶段出现的各种故障?研究者通过多层重置开发简单快速的故障恢复。SIM 可以在没有 root 访问权限的商业现成设备上执行配置文件重新加载、配置更新和故障通知。它进一步支持使用 root 权限更快地重置控制/数据平面。 当数据平面出现故障时,SIM 如何与基础设施协作?SIM 从基础设施中获取信息以进行细粒度的诊断和处理。研究者利用现有的信令消息来传输诊断信息,从而确保在控制/数据平面管理或数据传递失败时进行运行时 SIM 网络信息交换。
性能实验
经实验测试,SEED相较于传统的5G故障检测方案,能够在更短的时间内对故障进行检测和处理,并且不会降低传统SIM卡的安全性。
总结
在5G中,故障已成为常态,而当前的解决方案不诊断错误原因,而是使用盲目的顺序重试方法来处理故障。因此,本文描述了SEED的设计、实施和评估,这是一种基于SIM的新型5G故障诊断和处理的解决方案。SEED 利用标准化 5G 信令消息携带的可用错误代码进行根本原因推断。它通过一种简单的、特定于领域的机器学习算法进一步增强了诊断能力。一旦推断出故障原因,SEED 就会采取自适应的多层重置/重做操作(重置协议操作、刷新过时的配置、重新加载配置文件等)。
个人观点
本文的亮点不仅在于提出了一种新型的5G故障诊断和处理的解决方案,而且在设计过程中采用了运营商的观点。研究者认为运营商处于 5G 故障管理解决方案的最佳位置。当 5G 用户通过运营商激活他们的设备时,SEED 的组件可以很容易地安装到他们身上。按照目前运营商的做法,可以轻松完成软件更新。
L25GC: A Low Latency 5G Core Network based on High-Performance NFV Platforms
Vivek Jain (University of California, Riverside), Hao-Tse Chu† (National Yang Ming Chiao Tung University), Shixiong Qi (University of California, Riverside), Chia-An Lee (National Yang Ming Chiao Tung University), Hung-Cheng Chang (National Yang Ming Chiao Tung University), Cheng-Ying Hsieh (National Yang Ming Chiao Tung University), K. K. Ramakrishnan (University of California, Riverside), Jyh-Cheng Chen (National Yang Ming Chiao Tung University)
背景
为了让用户使用蜂窝网络的延迟更低,需要改进接入和packet core部分,最近的工作使得用户与基站的连接这一部分的延迟变成ms级别,蜂窝网络的性能主要依赖5GC性能的提升。构成4G core的硬件核心组件需要复杂的协议保持组件之间的一致性,但是会引入很多的延迟开销。5G将蜂窝组件实施为基于软件的实现,但是5G core之间的控制平面程序与4G core很相似,仍会有很多的延迟开销。此外,蜂窝网络的NF(网络功能)之间采用http通信(可以使得模块之间解耦合),但TCP处理和消息队列化会带来额外的开销。与此同时,转发规则由列表实现,对列表的实现采用简单的线性搜索实现,开销很大。为了使得软件化蜂窝核心具有更好的灵活性以及更高的性能,论文提出了L25GC。
设计
L25GC是基于NFV的,在free5GC的基础之上建立的,支持灵活性和高性能的蜂窝核。在数据面和控制面都可以达到性能提升,但可以和3GPP标准兼容。 具体来说,L25GC基于nfv平台将数据平面和控制平面的nf整合到同一个节点上,保留单独实施每个nf的灵活性,整合之后可以减少NF之间的通信开销。在此基础上,作者使用基于共享内存的零拷贝机制替换NF之间基于内核的通信通道,重建基于服务的接口、N4接口以及5GC数据平面,去除了额外的序列化处理,实现了不同网络功能之间通信的低延迟。该论文还实现了智能缓冲,将数据包缓冲到空闲的用户设备,以此优化切换过程,减少额外的菊花链路由。此外,传统的方法将转发规则用列表实现,对列表的实现采用简单的线性搜索实现,开销很大。为了应对数据包检测规则不断增长,作者比较了线性搜索、元组空间搜索和PartitionSort分类器,并选择了性能最好的PartitionSort分类器。由此,论文实现了更好的数据平面吞吐量。与此同时,在出现故障时,用户需要重新连接并重新开始,影响正在进行的数据连接。论文作者通过运行在空闲时不消耗任何CPU的轻量级CPU副本来缓解5GC的NF故障恢复的延迟。论文借鉴了前人的工作,复制5G NF的状态,确保一致性,避免了3GPP指定的UE重新连接过程。
性能实验
作者将L25GC与free5GC做性能对比。评估结果显示单个信息交换延迟提高了13倍,整体事件完成时间减少了51%。与free5GC相比,在寻呼和切换事件期间,数据包延迟减少了约2倍。与free5GC相比,即使是简单的网页(包含许多大图像)加载时间也提高了 12.5%,从而直接改善了用户QoE。L25GC中的数据转发可以在10Gbps链路上以线速运行64字节数据包流量,比free5GC基于内核的转发高27倍。
总结
作者在free5GC的基础之上,建立了基于NFV的,支持灵活性和高性能的蜂窝核L25GC。在数据面和控制面都可以达到性能提升,但可以和3GPP标准兼容。论文使用共享内存,构建了一个高效,低延迟的5GC服务,该服务保留了基于微服务的设计模式的优势,消除单个微服务之间由于接口产生的开销。
个人观点
本文基于NFV设计了L25GC,使用共享内存的方法,减少了NF之间的通信开销,性能评估效果良好,并且代码已经开源,可以供他人学习。美中不足的是,L25GC当前只支持有限的用户会话,使其不能进一步运用到实际场景中。
编辑:黄飞
评论
查看更多