如何采用人工智能建立自动化运营的数据中心

现在,大多数围绕人工智能(AI)的讨论都集中在自动驾驶汽车、聊天机器人、数字孪生技术、机器人技术,以及使用基于人工智能的智能系统从大型数据集中提取商业洞察力。可是人工智能和机器学习将会在企业数据中心的服务器中扮演重要角色。算法

如何采用人工智能建立自动化运营的数据中心

人工智能在提升数据中心效率以及扩展业务方面的潜力可分为四个主要类别:安全

  • 电源管理:基于人工智能的电源管理可帮助优化加热和冷却系统,从而下降电费,减小工做人员并提升效率。该领域的表明性供应商包括施耐德电气、西门子、Vertiv和伊顿公司。
  • 设备管理:人工智能系统能够监视服务器、存储设备和网络设备的运行情况,检查以确保人工智能系统配置正确,并预测设备什么时候将发生故障。调研机构Gartner公司表示,AIOps IT基础设施管理(ITIM)类别的供应商包括OpsRamp、Datadog、Virtana、ScienceLogic和Zenoss。
  • 工做负载管理:人工智能系统能够自动将工做负载实时移动到更高效的基础设施上,包括在数据中心以及在混合云环境中,在内部部署、云计算和边缘计算环境之间。愈来愈多的中小型企业提供基于人工智能的工做负载优化服务,其中包括Redwood、Tidal Automation和Ignio。像思科、IBM和VMware这样的主要厂商也提供这样的产品。
  • 安全性:人工智能工具能够了解正常网络流量的状况,发现异常状况,区分须要安全从业者注意的警报的优先级,帮助进行事故后分析,并为有关企业安全漏洞的防护措施提供建议。提供这一功能的供应商包括VectraAI、Darktrace、ExtraHop和Cisco。

综上所述,人工智能能够帮助企业建立高度自动化、安全、自我修复的数据中心,这些数据中心几乎不须要人工干预,而且可以以更高的效率和弹性运行。服务器

戴尔技术公司全球首席技术官办公室的杰出工程师Said Tabet解释说:“人工智能自动化技术能够扩展到超出人类能力的水平来解释数据,收集优化能源使用、分配工做负载和最大化效率所需的必要看法,以实现更高的数据中心资产利用率。”网络

就像自动驾驶汽车的承诺同样,自驱动数据中心至今尚未出现。在数据中心应用的人工智能的突破有不少技术、运营和人员方面的障碍。现在,虽然采用的人工智能技术刚刚起步,但潜在的好处将使一些企业不断寻找机会采起行动。架构

电源管理充分利用服务器工做负载管理

据估计,数据中心消耗了全球3%的电力,并形成了约2%的温室气体排放。所以,不管是为了节省成本,仍是为了节能环保,不少企业都在认真研究数据中心的电源管理。机器学习

调研机构451 Research公司高级分析师Daniel Bizo表示,基于人工智能的系统能够帮助数据中心运营人员了解当前或潜在的冷却问题,例如因为高功率密度机柜阻碍了气流而致使的冷空气输送不足、精密空调单元性能不佳,或冷热通道之间的冷空气输送不足。ide

Bizo说,人工智能系统能够经过将精密空调系统数据与环境感知读数相关联来学习设施。工具

IT咨询和顾问机构StorageIO公司的创始人Greg Schulz补充说,“电源管理是一个很容易实现的成果。这意味着使电源设备更智能地工做。”性能

企业还要有一个容量规划的角度。除了寻找热点和冷点以外,人工智能系统还能够确保数据中心为适当数量的物理服务器供电,而且在电力需求临时激增的状况下,还有能力启动和关闭新的物理服务器。学习

Schulz补充说,电源管理工具正在开发与管理设备和工做负载的系统的链接。例如,若是传感器检测到服务器运行温度太高,则人工智能系统可能会快速自动将工做负载转移到未充分利用的服务器上,以免可能影响关键任务应用程序的潜在中断。而后,人工智能系统能够调查服务器过热的缘由,多是风扇故障(HVAC问题)、物理组件即将崩溃(设备问题),或者服务器刚刚过载(工做负载问题)。

人工智能驱动的健康监控、配置管理监督

数据中心有不少须要按期维护的物理设备。人工智能系统能够帮助数据中心的按期维护,并收集和分析遥测数据,从而肯定须要当即关注的特定区域。Schulz说,“人工智能工具能够探查全部这些数据和异常点。监视数据中心运行情况始于检查设备配置是否正确以及是否达到预期效果。因为大型数据中心能够有上千个IT机柜和数万个组件,这些工做是劳动密集型的,所以并不老是可以及时完全地执行。”

他指出,基于大量传感数据日志的预测性设备故障建模能够发现即将出现的组件或设备故障,并评估其是否须要当即维护,以免任何可能致使服务中断的容量损失。

瞻博网络公司企业和云计算营销副总裁Michael Bushong认为,企业数据中心运营商应忽略一些与人工智能相关的过分宣传和炒做。

Bushong说,“也许有一天,人工智能系统可能会告诉工做人员哪里出现问题并加以解决。”

依赖关系映射在人工智能可能有用的领域中也很重要。若是数据中心管理人员正在对防火墙或其余设备进行策略更改,那么意外的后果是什么?Bushong说:“若是我提议进行更改,可能存在的变化很是有用。”

保持设备平稳安全运行的另外一个重要方面是控制所谓的配置漂移,这是一个数据中心术语,指的是临时配置的变化随着时间推移会致使产生问题。Bushong说,人工智能能够做为额外的安全检查,识别即将发生的基于配置的数据中心问题。

人工智能与安全

Bizo认为,人工智能和机器学习能够经过对事件进行快速分类和聚类来简化事件处理(事件响应),从而识别出重要事件并将其分离开来。更快的根本缘由分析有助于运营人员作出明智的决定并采起行动。

Schulz补充说,人工智能在实时***检测中特别有用。基于人工智能的系统能够检测、阻止和隔离威胁,而后能够进行法医调查,以肯定到底发生了什么问题。

在安全操做中心(SOC)工做的安全专业人员常常会收到过多的警报,但基于人工智能的系统能够扫描大量的遥测数据和日志信息,从而清除平常任务,从而使安全专家可以腾出时间来处理更深层次的调查。

基于人工智能的工做负载优化

在应用程序层,不管是在内部部署仍是在云平台中,人工智能都有可能自动将工做负载移动到适当的着陆点。Bizo说:“人工智能和机器学习未来应该根据有关性能、成本、治理、安全性、风险和可持续性的众多规范,对将工做负载放置在何处作出实时决策。”

例如,能够将工做负载自动转移到节能的服务器上,同时确保服务器以最高效率(利用率为70%~80%)运行。人工智能系统能够将性能数据整合到其中,所以对时间敏感的应用程序能够在高效的服务器上运行,同时确保不须要快速执行的应用程序不会消耗过多的能量。

基于人工智能的工做负载优化引发了麻省理工学院研究人员的注意,他们去年宣布开发了一我的工智能系统,能够自动学习如何在数千台服务器上调度数据处理操做。

可是,正如Bushong指出的那样,现实状况是,当今的工做负载优化是像Amazon、谷歌和Azure这样的超大规模企业的重中之重,而不是企业数据中心。这有不少缘由。

实施人工智能的挑战

优化和自动化数据中心是正在进行的数字化转型计划不可或缺的一部分。戴尔公司的Tabet补充说:“因为发生疫情,许多组织正在寻求进一步的自动化,推进人工智能驱动并可以自我修复的‘数字数据中心’的构想。”

谷歌公司在2018年宣布,已将其几个超大规模数据中心的冷却系统控制权转为人工智能程序,该公司报告称,人工智能算法提供的建议使能源使用量减小了40%。

可是对于不少企业来讲,在数据中心中采用人工智能技术很是有抱负。Bizo说,“一些人工智能和机器学习功能可用于事件处理、基础设施运行情况和冷却优化。可是,要想实现人工智能和机器学习模型超越当今标准数据中心基础设施管理(DCIM)所能实现的更多突破,这须要多年的时间。”

Tabet说,“一些障碍是须要雇用或培训合适的工做人员来管理系统。另外一个须要注意的问题是数据标准和相关架构的须要。AIOps平台的成熟度、IT技能和运营成熟度是主要障碍。高级部署面临的其余新挑战包括数据质量以及IT基础设施和运营团队中缺少数据科学技能”。

Bushong补充说,最大的障碍始终是工做人员。他指出,聘用数据科学家对许多企业来讲都是一个挑战,而培训现有员工也是一个难题。长期以来,不少员工一直在抵制让他们没法掌控的技术。他指出,软件定义网络(SDN)技术已经存在10年的时间,可是超过75%的IT运营仍然是命令行界面(CLI)驱动的。

Bushong说:““不少人相信,各类基础设施的运营商都准备将控制权交给人工智能。”

而这就是Bushong建议企业应该向着人工智能方向迈进的缘由。

【责任编辑:赵宁宁 TEL:(010)68476606】

相关文章
相关标签/搜索