大型语言模型来袭,会让网络运维 “脱胎换骨” 吗?

在北宋时期,活字印刷术革新了信息的传播方.

在北宋时期,活字印刷术革新了信息的传播方式,这一创新对后世产生了深远的影响。

如今,我们站在由人工智能 AI 引领的技术革命的边缘,这场革命是否有望以前所未有的方式改变网络工程运维的面貌呢?

大家知道,早期的网络由于架构较为简单,组网规模也不是很大,网络管控主要聚焦于设备的监管方面,对故障的处理主要还是倚赖人的作用,耗时耗力。

以一个常见问题为例:“为什么 5 槽位单板的第 1 端口有严重告警,怎么解决?”

我们知道,这可能是由于硬件故障、配置错误,或是通信协议的冲突。即便是经验丰富的网络工程师也可能需要投入大量时间,深入剖析海量的网络日志和文档。在某些情况下,甚至需要远程连线至研发中心,与研发同事共同分析日志,努力定位并解决问题。

传统运维通常会带来如下几个问题:

  • 业务难感知难

当前网络运维受限于众多告警事件,过滤机制导致网络整体评估能力受限。SDN等新技术的应用加剧了这一挑战,需同时维护物理和虚拟网络层。传统运维模式过于被动,缺乏故障预测能力,运维人员常陷入事后补救的困境。

  • 故障恢复慢

一个是异常定位困难,二是处理效率低等导致的。在金融行业,若单机构单省中断半小时,那么定位为III级事故并上报银监会。对于大部分企业,业务中断会导致企业经济利益不同程度受损。这就要求遇到故障首先要在最短时间内恢复业务。

  • 人力紧缺

在国内有人口优势在这摆着,可能人力成本倒问题不大,但已经有很多公司将运维外包,以节省成本。另外,运维这工作内容枯燥、工作量巨大,经常半夜扛着电脑出门,但是运维对技术的要求还非常高,所以一般来说,运维岗位对人才的吸引力不高,导致人力不足。

为了应对上面的问题,设备商运营商也弄出来了自动化运维等功能,但自动化运维的主要优势在于提高运维效率、减少人为错误、实现故障预测等方面,已经远不足以满足企业的需求了。

如今,随着 AI 的出现,特别是大型语言模型(LLM)的成熟,让广大的企业和运维们又有了新的期待。

先说说啥叫LLM大型语言模型? LLM (Large Language Model) 是指一种拥有数十亿参数的模型,通过对互联网上的大规模数据(TB级)进行训练而得到,当模型参数和用于训练的数据量达到一定规模时,LLM 将出现智能涌现,具备一定的生成、理解和创作能力。这也就为网络管理运维带来新的可能性。

因此,LLM大模型事实上就是算法、数据、算力上的有效结合。目前已经有厂家发布了网络运维大模型了,如华为在 MWC24 巴塞罗那发布了通信行业的首个网络大模型——Net Master。华为的Net Master是基于华为盘古大模型训练而成,据说是集成了华为数据通信领域超过500亿语料和1万多名网络专家的经验(可能是市场话术)。

回到主题,也就是说,在运维与网络管理中,通过利用 AI 与大模型,我们可以分析路由器固件的发行说明,自动识别与兼容性相关的配置需求。还可以扫描路由器的调试日志,检测可能导致硬件故障的异常条目,并提供故障排除的建议

例如,咱们的网络工程师可以问 AI:“端口ge 0/0/23 上的延迟为何激增?”,AI 可能会回答:“ CRC 错误表明可能存在光模块问题,建议检查或更换收发器。” 这样的互动不仅简化了故障排除过程,还提高了工程师的工作效率。

早期实验表明,AI 大模型在分析网络日志和识别问题方面表现出色,准确率超过97%,远超传统方法。这一结果不仅展示了 AI 在自动日志分析方面的潜力,也预示着其在网络优化和管理中的巨大作用。

AI 可以通过强化学习技术调整网络参数,比如 TCP 缓冲区大小和 VLAN 配置,以提高网络性能。它能够处理常规的网络调整任务,释放网络工程师的时间,让他们能够专注于更复杂的战略问题。

但是大模型在网络运维中还有一些问题亟待解决。一个是数据标准化,如何对海量的数据进行清洗和标注,二是急需专门人才,以解决模型的结构设计,以及怎么训练、推理,另一个是如何处理好与数据安全的关系。

正如毕昇的活字印刷术开启了知识的新纪元,AI 与 LLM 大模型技术,将有望大大降低专家级网络自动化和分析的门槛,可能连普通网络小白都可以做运维工作。

所以,做了多年运维的你,是期待还是担忧?

发表回复