“人工智能是个筐,什么都能往里装。”当前,依赖于一张灵活的通信网络,人工智能应用已全面融入人们的生活。那么,如果将人工智能融入于通信网络之中,又能擦出什么样的火花呢?
在今日举行的“当AI遇到光:智能光网络线上研讨会”上,中国移动研究院项目经理韩柳燕表示,AI技术在传送网有丰富的应用场景,可助力传送网实现智能化转型,构建“检查-诊断-治疗”的闭环网络健康保障方案,打造高品质健康自愈智能型网络。
韩柳燕介绍,AI用于模拟、延伸和扩展人的智能,主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作,其三大关键要素是算力、数据和模型。现有传送网控制器及设备已具备引入AI算力、数据搜集和搭建模型的能力,但AI应用于现网影响重大,实际应用前应经过长期的验证,分阶段推进。
AI技术在传送网管控层应用
“在传送网管控层引入AI主要倾向于实现网络端到端规划建设和运维管理的智能化,避免过于依赖人工分析和处理,耗时耗力。”韩柳燕指出,在规划建设阶段引入AI,可以在业务部署、软调测试和配置巡检等环节发挥积极作用;在运维管理过程中引入AI,可以将故障定界转化为故障预判,以及进行根因分析。
管控层应用场景之一是智能规划。传送网网络节点多,在业务规划阶段配置工作量巨大。例如中国移动拥有超200万端PTN设备、超20万端SPN设备以及超50万端OTN设备,这些设备在上网运行前都必须进行各个层面的配置,包括业务隧道标签规划、全网业务和设备IP地址规划、业务端到端主备路径规划等。引入AI可以采集现网部署规划的大数据,依据AI算法训练各参数的规划特征模型,输入业务部署需求,通过参数模型做智能规划建议。
管控层应用场景之二是异常配置自识别。面对海量的设备和配置,人工操作难免出现错误,且部分异常配置仅在特定场景下才可能暴露出来,很难排查。引入AI可以获取全网配置,智能学习设备角色,生成不同角色的全网配置模板,从而进行配置异常自识别,将排障周期从数周数月降低至数天。
管控层应用场景之三是网络隐患预测。因为感知手段有限,网络运维依赖于告警,但部分故障偶发或需要一定的触发条件,可能无告警,导致隐患无法及时发现。通过引入AI,可以搜集现网健康状态下的数据,训练构建模型,形成各参数的全网模板,通过比对模板,发现链路等性能的劣化(未达阈值),在触发告警之前预测出网络隐患。问题处理从被动处理的小时级变为主动处理的分钟级。
管控层应用场景之四是网络资源预测。面对庞大的网络,依靠人工核查全网端到端带宽使用率等资源工作量大、周期长,无法及时暴露资源不足的问题,导致故障无法提前识别。引入AI可以基于历史数据进行智能在线训练,形成各资源较科学的阈值,基于Telemetry进行各类资源数据的实时采集,输出各类资源耗尽预测曲线或N天后耗尽提醒,主动识别潜在风险。
管控层应用场景之五是故障根因分析。故障数据分散且异常之多,海量的告警导致故障排查工作量大,且无法精准处理重要告警,很难快速定位根因。通过AI可以实现对海量告警的关联、根因分析,快速定位故障点,从人工关联告警定界定位的小时级处理变为自动关联告警定界定位的秒级处理。
AI技术在传送网设备层应用
韩柳燕进一步介绍,在传送网设备层引入AI主要倾向于实现设备隐患预测、设备资源预测及设备资源优化。以SPN设备系统架构为例,设备功能模块较多,各功能的实现依赖单板、光模块、芯片、内存等物理单元协同,物理单元的使用情况和状态影响各功能的正常实现。
设备层AI应用场景之一是设备隐患预测。如何在设备的各个模块老化初期迅速更换是很重要的应用,例如光模块性能劣化,出现少量丢包或误码,但尚未达到触发告警的阈值,此时通过AI技术充分分析现网设备的运行状态数据,能够及时挖掘设备内部隐患,避免设备真正出现故障。
设备层AI应用场景之二是设备资源预测和故障定位。依靠人工来核查各设备容量、内存使用情况、端口使用率等资源工作量大、周期长,例如某局点设备主控内存泄漏,管理面所在进程内存耗尽,主设备倒换测试后,设备脱管,故障发生前无提示,无法提前干预处理。利用AI可以基于历史数据进行智能在线训练,形成各资源较科学的阈值,输出设备内部的各类资源预测曲线和预警。
设备层AI应用场景之三是设备动态节能。现网设备量大,但某台设备并不是所有模块都需要处于工作状态,在网络运维管理阶段可以通过AI实现动态节能。例如基于搜集的网络历史数据形成预测,判断出某些接口在某段时间无流量或流量很低,则可适当关闭或调低该接口相关的部分功能模块性能等。
韩柳燕在演讲中指出,SPN能力使能高效、精准AI应用。SPN In-Band OAM提供端到端秒级逐业务的性能监测数据上报,相对传统15分钟级上报,可为AI应用提供更精细、更实时的性能数据;SPN时间同步达到端到端100ns级精度,可为设备告警、事件和性能等提供纳秒级精度的时间戳(原为毫秒级精度),提升AI应用的效率与准确度。
韩柳燕同时指出,AI技术在传送网的全面落地不是一蹴而就的,应分阶段推进。当前AI演进存在以下几个关键问题:国内外标准已经规范AI架构、流程、分级评判等技术内容,但仍缺乏AI传送网的国内外标准,后续可在复用已有标准的基础上,制定AI传送网的国内外标准;AI模型的训练需要基于海量的历史数据,但部分场景的历史数据量有限或是数据获取渠道有限,基于少量数据搭建的AI模型准确度较低;不同厂商的数据格式不一样,导致较难搭建跨厂商AI平台;AI应用于现网影响重大,实际应用前应经过长期的验证,可考虑模型简单、规则较为确定的场景优先应用,分阶段推进AI在传送网的部署应用。
“近期目标是实现传送网异常配置自动识别、故障快速定位和网络劣化预警等较易实现的功能;远期目标是构建“检查-诊断-治疗”的闭环网络健康保障方案,打造高品质健康自愈智能型网络,实现AI技术在传送网的全面落地。”韩柳燕说。