机器学习如何帮助IT管理人员走出运维的泥泞

IT168 中字

传统的运维方式基本都是依赖人工和静态规则,它们无法适应于动态复杂变化的场景。而人工智能可以让运维具备机器学习和算法的能力,从而在动态变化场景的复杂条件下,能够做出高效准确的决策判断。我们需要具有从“基于专家经验”到“基于机器学习”的观念转变。

近年来,机器学习技术在监控工具中的应用已经成为 IT 运维与 DevOps 团队的一大热点话题。尽管相关的使用案例很多,对 IT 团队而已真正的「杀手级应用」是机器学习如何提高实时事件管理能力,从而帮助较大规模的企业提高服务质量。对此,关键在于在用户发现问题之前提早探测异常,进而减少生产事故与中断的负面影响。

在运维过程中,会产生海量的运维数据,这其中有些可用于描述应用或者系统的运行状态、有些可用于标签、有些可用于进行经验反馈。这些巨量的、多维度的数据是机器学习建立行为模型的基础。

具体有哪些优势呢?首先,机器学习的优点在于可以通过无监督学习实现定制化,从而满足公司独特业务环境的需求。机器学习通过采用各种算法,识别数据中可实际应用于商业活动、挑战和机会的一致、连贯且循环的模式,从而实现这一优势。

另外,现今的公司往往都掌握了大量的数据,但是大多未被利用或者不可用,并且可能还正在迅速变化。这些数据太过庞大,即使是整个部队的分析员也无法奢望能够完全掌控。有了机器学习,大数据的优势可以通过将操作智能嵌入到现有的性能管理工具中得到有效实现。例如,假设一家大型百货商店使用机器学习来分析销售交易,就可以轻松地评估数十亿笔交易及相关元数据并从中获取有价值的信息。这些信息可以被纳入现有的工具中,以帮助商店改进其内部运营,并提升端对端的客户体验。

不仅如此,机器学习也可以帮助弥补IT运维专家退休或离开公司时留下的空缺。例如,新一代的IT专家未必接受过大型机技术的培训,而许多领先的企业以及政府都依赖此技术来执行其最重要的应用程序。嵌入智能和应用机器学习技术吸纳了大型机专家的技能和知识,可以降低风险,确保机构可以实现持续和可扩展的运营,从而弥补对于优化大型机性能和故障排除等专业能力的缺失。

当然,这并不意味着企业IT运维可以直接无缝向机器学习靠拢。事实上,机器学习可以分成两个阶段的应用。第一个阶段是链接来自不同IT工具的数据,第二个阶段是确定哪里的关联是最有意义的。在处理非结构化数据的第一阶段,联系的过程是并不明显的。

机器学习可以推断出不同数据源之间的关系,并确定如何才能将它们链接到有关的运行环境中去。算法包括模糊的匹配规则和如何去识别同时频繁出现的事件的关联规则,自然语言中的数据语言分析和根据预测模型建立的估算系统。而在这个过程中又产生了一系列的跨数据的带有语义标注的数据样本。

IT运维的发展足以使所有的可自动化功能变得自动,并使用精密的组件工具来确保一切正常运行。IT运维分析已经进入了一个新的时代——一个由算法处理IT运维的领域,将学习算法的过程融入在收集的大量数据,警报,票证和测量中,以提取出其被深深隐藏的洞察力,这种洞察力将能够提供准确的警报,建立情景感知意识,找到根本原因,甚至能预测事件。

声明: 本文系OFweek根据授权转载自其它媒体或授权刊载,目的在于信息传递,并不代表本站赞同其观点和对其真实性负责,如有新闻稿件和图片作品的内容、版权以及其它问题的,请联系我们。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存