在大型购物中心内,为优化移动网络中基站的放置和配置,运用了机器学习技术。该技术成功地预测了服务降级、发现了基站停机并实时发现了基站异常。该工作由 Automation Consultants 的机器学习合作伙伴 Thingbook.io 执行。
背景
智能手机的到来和快速采用推动了移动流量的大幅增长。移动运营商满足该需求的唯一方式就是大量使用小基站。小基站最初的目的是成为橡皮膏,小幅提升低功耗频谱以填补大型基站无线电覆盖的空白,并实现致密化 ── 更加密集地将基站装进网络,从而加大容量。大型基站预计会继续它们作为移动网络主要支柱的角色,并且需要与它们的角色和规模相匹配的支持和精确设计。针对网络设计了网络标准,网络主要由大型基站组成,但是由于小型基站激增,大多数移动运营商都拥有所谓的异构网络 (HetNet)。产生这种趋势的其中一个因素是,如今大约 80% 的移动数据流量产生于室内,室内公共空间的覆盖通常由小型基站提供。
管理移动网络的一个关键目标是确保具有处理需求所需的足够覆盖和足够容量。基站的任何故障都应尽快进行检测。在短期内,应尽快配置相邻基站以对停机进行补偿(例如,通过增加其功率输出和/或重新调整它们的信号和天线),一旦工程师被派往现场,就必须尽快解决停机问题。今天的网络被设计为自组织网络 (SON) 且能够自愈,但是事实上它们的异构性质使得自愈变得更加困难。实际上,很多运营商都不大愿意使用 SON 技术,该技术完全不是为 HetNet 设计的。
问题
问题包括优化在购物中心设置的小型基站网络。该网络需要确保完整的覆盖,在中心的所有部分都具有可接受的用户体验。移动网络高度复杂,基站常常会发生故障,因此唯一确定的了解它的方法是尝试在受影响的区域使用电话。所以,如果一个基站出现故障,在用户开始抱怨之前并不总是很容易检测到。可用于购物中心网络的传统监控可能会显示异常,但是从中推断出问题的真正原因经常非常困难。
解决方案
部署的解决方案包括从传统监控和其他来源实时分析大量的数据,并对其运用机器学习。机器学习可能会辨别数据中的模式,检测可能的网络故障并推断最可能的根本原因。在操作使用之前,有四个月的学习期,在此期间会以进行监督的方式分析数据,并学习机器学习软件,将异常与根本原因联系起来。
分析的数据的来源为
- 来自网络监控的传统日志;
- 计费数据(呼叫详情记录、CDR)
- 最小驱动测试 (MDT) 数据。MDT 包括从同意用户的电话中提取的日志。
Thingbook 的 Galileo 数据收集和清理引擎用于读取和规范大量的数据。这部分的机器学习常常很耗费时间,而且常常比实际分析花费的时间要更长。Galileo 会自动收集、映射聚合和移动大量数据,帮助减少数据准备所花费的时间。
数据使用 Thingbook 的 Turing 机器学习系统进行分析。Turing 使用机器学习技术来执行实时数据分析。其功能包括异常检测、模式匹配、可能的原因分析、KPI 依赖关系以及绩效排名。
对于异常检测,Turing 使用不受监管的异常检测方法,基于子空间聚集和多种证据积累技术来精确地找到不同类型的网络异常(最近,深度学习技术已添加到所用的方法之中)。 Turing 可识别与新发现的知识或过去学到的知识相对应的模式。对于两种情况,Turing 都有能力实时存储并识别有意义的数据行为。
结果
获得的主要结果如下。
- 根据行为模式,将基站分为六个主要组。这些组中的前 5 个占基站的 51.6%。
- 1.3% 的受研究行为被发现为异常或与预期的习得模型非常不同。
- 两个基站一再被发现处于“睡眠/中断”状态,影响了共 28,739 位用户,这些用户遇到了连接被拒绝的问题,体验质量差。
- 实施的手机型号和 OS 对呼叫质量有强烈的影响。换句话说,有些手机型号比其他型号的作用要好得多。Call Setup Success Rate(呼叫设置成功率),即设置无线电频道以进行呼叫的成功率(CS RAB 建立成功率),在最常用的手机型号与第二常用型号之间显著下降。
结论
机器学习用于通过识别大量原始日志数据中与实际中断和用户体验问题相对应的模式,来诊断网络故障,比传统监控要更加有效。因而,问题可得到及早检测并迅速解决。