电信行业面临挑战呼唤ADN，云地协同加速AI特性规模应用-电子发烧友网

人工智能经历了六十多年的浮浮沉沉，随着计算算力的进步，算法的创新和互联网发展下的海量数据积累，人工智能技术未来十年将焕发出新的活力，成为最具有冲击力的科技发展趋势之一。

电信网络作为信息通信的基础设施，具有应用人工智能技术的巨大空间和潜力。如何利用人工智能算法提供的强大分析、判断、预测等能力，赋能网元、网络和业务系统，并将其与电信网络的规划、建设、维护、运行和优化等工作内容结合起来，成为电信业关注的重要课题。

在HUAWEI CONNECT 2020期间，华为基于对电信领域的深刻理解和多年经验沉淀，带来了《云地协同加速网络AI规模商用使能实现自动驾驶网络》的分享，旨在结合电信领域应用场景，使能网络达到自动、自愈、自优和自治的自动驾驶网络，提升整个网络的效率，降低OPEX。

电信行业面临挑战呼唤ADN

我们正进入一个跨界竞争的新时代，每个行业都面临着结构性挑战，电信行业尤其如此。新趋势下，电信网络正面临以下三大挑战：

业务复杂：网络所联接的业务越来越多，无人机、汽车、AR/VR…从B2C到B2C、B2X，网络所支撑的业务越来越复杂;

运维复杂：从4G到5G，2-3-4-5四代同堂，十余种网络协议，数千网络特性，上万配置参数，网络运维复杂度激增;

联接复杂：万物智能，使得联接密度增加了100倍，联接移动性达到了150km/h，联接的数据量增加1000倍，联接复杂度前所未有;

要解决电信网络面临的挑战，仅仅靠产品创新远远不够，需要整个系统架构创新和商业模式创新，才能提升运营商的竞争力，解决结构性问题。从2018年开始，为实现网络自动化和智能化，电信行业组织、运营商和设备商纷纷启动技术探索。

华为在2018年即提出电信行业迈向ADN五级演进标准，为实现自动驾驶网络提供了参考。另外，以中国联通、中国移动、BT、法电、Telstra为代表的运营商，以及以华为、爱立信为代表的设备供应商均积极开展相关实践，网络智能化、自动化成为行业热点。

近10年来，华为从ALL IP，ALL Cloud进入ALL Intelligence时代，在架构创新的道路上从未停止。2019年4月，华为正式发布iMaster NAIE网络AI云服务，为华为网络智能化战略实施的的重要里程碑。

不仅如此，华为自动驾驶网络（ADN）秉承“把复杂留给自己，把简单带给客户”的思想，以网络极简和智能运维为核心理念规划、设计和开发产品，通过云端+AI、网络+AI和网元+AI的三层AI开放架构“给网络以智能，给运维以平台”，加速电信运营商数字化和智能化转型。

云地协同加速AI特性规模应用

近年来，全球业界各方在网络AI方面纷纷进行积极的探索和实践，经过验证在运维效率、能耗效率、网络资源利用率以及用户业务体验提升等方面确实能够带来价值，电信产业走向智能化已经成为整个行业的共识。但在实践中，也发现网络AI在走向规模化工程应用的过程中存在很多挑战，如模型重训练占用资源多、模型版本升级管理难度大、本地样本少、模型精度不够等问题。

模型重训练占用资源多：从实践统计来看，一些场景都会发生因泛化、或数据偏移而导致的模型精度下降问题，如无线流量预测、DC PUE优化等，AI模型都需要进行重训练。AI模型训练一般会占用较多系统资源，如在网元或网管实施重训练任务，训练效率低，同时也可能会影响设备性能。

模型版本升级管理难度大：很多场景的AI模型都是一站一模型，如无线基站智能节能等，各站点的模型都根据本地化数据进行定制化训练。各局点模型版本不同，升级频度也不同，成千上万的站点模型，管理难度很大。需要有一个统一的平台，高效实现模型状态的监控和版本升级策略等管理任务。

本地样本少、模型精度不够：部分场景单局点样本量少，不足以支撑模型训练，如核心网KPI异常检测，单局点发生异常频率很少，训练需要的样本量不够。因此，需要能够汇聚所有局点的全量样本信息，可能还需辅以联邦学习等技术，才能训练得到满足业务精度要求的AI模型。

云地协同实现架构

针对以上问题，华为提出云地协同创新方案，通过云地协同，可以加速AI特性的规模部署。

云地协同，是指云端和地端一起协作完成数据样本上云，模型状态管理，模型重训练，模型/知识下发、择优更新等一系列的闭环任务，同时把云端汇集的全局网络知识经验、全量数据训练得到的高精度模型，持续注入地端，让电信网络能够进行智能的迭代升级，变得越来越聪明。

云地协同有三个主要的特征：一是云端和地端要有通道;二是地端到云端，信息可以从运营商上传到云端，包括数据样本、模型状态、以及重训练请求等信息，三是云端到地端可以下发新的模型，同时网络知识库里的知识也可以注入到地端。

云地协同机制参见下图：

云地协同三个阶段

据介绍，云地协同在实际应用部署时有三个阶段，针对不同场景可以选择适合的阶段，最终大幅提高网络的资源效率。

阶段1：云端进行初始模型的训练，运行态由地端根据新增的样本进行在线学习，持续保持模型的精度。这种模式主要是适用于模型相对简单，算法结构比较稳定的场景，这种场景一般不需要对模型结构和算法本身进行更改，只需要根据本地数据进行在线学习，优化调整模型参数。比如像核心网变更在线机器值守等。

阶段2：云端进行模型的分发，然后在地端根据新增样本进行在线学习。具体讲，就是云端会持续对模型进行优化，包括模型算法结构上的，优化后的模型会进行推送到地端，地端根据评估结果进行模型择优更新。同时，地端也会根据本地数据样本的学习进行模型参数的优化。这种一般适合于模型相对复杂，华为会持续进行模型算法结构优化的场景，比如无线KPI 异常检测等。

阶段3：云地实时协同，模型可以自动化演进，具体讲就是本地样本会实时上传到云端，云端进行训练和优化后的模型会自动推送到地端，地端进行模型评估择优进行升级。这种主要是适用于模型复杂、需要用到华为云端高质量标注数据，知识图谱以及仿真等知识能力进行模型优化的场景，比如IP RAN/PTN智能告警，DC PUE优化等。

云地协同关键价值

联邦学习，即通过汇聚各个地端模型的参数，在云端采用汇聚算法，形成效果更好的共享模型，再下发给各个地端进行使用，其最大的特点，就是在地端数据不用出局的情况下，提升模型的精度。借助联邦学习可以更好的实现云地协同，从而提升模型泛化能力和训练效率。

借助知识图谱，通过沉淀专家经验和产品知识转化形成故障传播关系等，形成“网络知识库”，可用于故障运维辅助、知识问答等。

在云端仿真方面，通过在云端构建虚拟仿真环境，高效安全地进行模型或业务验证，在避免现网性能或KPI受到影响的同时，支撑网络问题的快速闭环。

模型因为需要进行更新，更新的方式如果采用传统网管集成的这种模式，需要经过多层多次的人工动作，首先模型版本发布后，需要产品研发把模型通过代码工作集成到网管软件版本里，然后发布到华为Support网站。

如果采用自动升级模式，通过云地协同，让AI模型市场跟地端网络AI对接，模型发布后进行推送，让地端局点启动自动化的模型升级，当然升级前也会完成模型的评估，整个过程在1个小时即可完成。

总结来看，云地协同可以实现一点生效，全网复制，AI的特性在一个局点成功实施后，快速的形成知识和经验，在其他局点进行复制，实现在全网规模应用。

华为iMaster NAIE让网络AI开发简单高效

NAIE是自动驾驶网络解决方案的网络AI设计和开发平台，由数据服务，训练服务，AIOps使能服务，推理框架和生态服务五大部分组成。

网络AI模型开发既要懂AI、又要懂网络，技术门槛高。模型开发过程中，既需要懂AI知识，又需要熟悉网络业务。电信领域专家AI积累少，可借鉴经验少。而且由于AI算法多，选择范围广，所以导致试错成本高、开发效率低;算法科学家不懂电信业务，需要花大量时间了解学习。模型训练依赖大量并且昂贵的计算资源，调参优化周期长，训练耗时高、周期长。

NAIE训练平台，提供一站式高效模型训练，集成业界通用的主流AI算法框架，包括Mindsp ore、Tensorflow、SParkML、Caffe2、MXNet等，内嵌华为在网络领域30多年的知识和经验沉淀，支持电信领域的特征处理，辅助快速识别等关键特征，内置电信领域AI典型算法，如异常检测、根因分析、优化控制、业务预测等，支持模型快速验证。目前主要包括三类服务：模型训练服务、模型生成服务和通信模型服务（在线推理），可以满足不同层次的人员对于模型开发的需求。

不仅如此，华为还提供了丰富的NAIE培训服务，线上线下结合，助力运营商人才转型。

总结

未来是智能化的时代，运营商网络智能化不可能一蹴而就，而是一个长期实践。华为自动驾驶网络解决方案是华为All Intelligence战略在电信领域的落地，而iMaster NAIE做为智能化部件，将使能自动驾驶网络。核心的AI能力依托华为在All Intelligence中长期坚决的战略投入而积累成长，和电信领域场景想结合，帮助运营商尽快实现数字化，智能化转型。
责编AJX

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉