混合云场景下容器技术在新能源功率预测产品中的最佳实践

能源互联网是物联网和“互联网+”在能源行业深度融合的产物,是中国制造2025的重要组成部分,咱们如今还处于能源互联网的早期阶段。绝大部分能源行业的应用都部署在私有局域网内,而且网络结构异常复杂,这是阻碍互联网技术在能源行业落地的最大挑战。算法

6月28日,金风科技数据平台架构师张利出席了Rancher Labs举办的Container Day 2018容器技术大会,并作了题为《混合云场景下容器技术在新能源功率预测产品中的最佳实践》的演讲。数据库

金风科技是中国成立最先、自主研发能力最强的风电设备研发及制造企业之一。做为金风科技数据平台架构师、Team Leader,张利自2014年加入金风科技后,主要负责公司新能源功率预测产品的研发、数据平台的搭建、以及解决方案的规划。他带领基础架构团队创建多云和混合云场景下的持续交付平台、搭建能源气象平台,实现功率预测产品的微服务化改造、完成该产品端到端的交付,实现产品到解决方案的平台化改造。安全

在演讲中,张利从金风科技的实战经验出发,为你们解读了容器技术如何应用在传统能源行业中,如何实现混合云场景下功率预测产品的快速落地。本文由演讲内容整理而成。网络

金风科技主要作的产品是新能源功率预测产品,是一家典型的制造业公司,软件并非主业。可是随着能源互联网的发展,能源企业开始转型,咱们的软件产品也开始变得很是丰富起来,同时有不少场景想强大现有软件的产品线,因而咱们开始一点点进行转型,并基于如今的互联网技术去作传统制造业的业务。架构

金风科技是国际化清洁能源和节能环保的总体解决方案提供商。公司成立了20年,如今管理着38GW的风电场的装机容量,现有风机数量2.5万台,整个在全球排名第3,已经连续至少5年中国市场排名第一。这是目前咱们对整个环保作的一些贡献。运维

业务背景微服务

功率测产品是个什么样一个场景?它是基于天气预报加上AI两个技术进行预测。天气预报获得了时间跟风速的曲线,而后以后是用AI去训练功率曲线,将风速跟功率的曲线组合,获得的结果就是一个预测的基于时间的功率,也就是总体的发电量的状况,这是咱们大概的业务场景。oop

实际上,咱们的软件在网络层很是复杂。咱们有严格的安全保护,将网络分红了两个区,通常全部的系统不能部署在外网,都是部署在隔离区内,中间放了一个应景的防火墙,数据只能经过文件的形式往里进,出去是基于UDP跟阉割版的TCP的协议,这里面不少协议是不能用的,这是很是复杂的部分,因此发布软件的时候是十分困难的,大部分时间只能人为地发布软件产品。学习

还有另一点是,部署架构也特别复杂。在2010年以前,大部分的电场是分布在中国各个偏远山区、戈壁之类的地方,由于那里的太阳能和风能十分丰富。到了2010年的时候,出现了一些区域的中心,他们会把这些散落在各个电场的数据所有都拿上来进行统一的风电场监控。2010年到2015年之间,这些电场开始有集中化的监控。到了2015年,功率测的产品开始变成一个集中化的产品,我大概是那个时候入职金风,开始作集中式的功率测产品。有一个复杂的地方是,全部的软件系统既要部署在边缘节点的电场,也要部署在省中心的一个小机房,还要部署在客户的总部。大数据

最佳实践

如今咱们在边缘节点的架构已经彻底的容器化了。在业务层会有一些标准的IOT的场景,好比说采集、存储、ETL展现,这是标准的一个作法。另外一方面,因为咱们是基于AI进行预测,所以有一部分是基于TensorFlow去作预测,而那个部分是由一个独立的团队进行,所以实际上发布十分困难,尤为是AI的部分。下边会再详细分析这个问题。

这个AI分两部分,一个是离线的AI,这个咱们在2015年已经实现了在云端的预测,是短时间一天发布一次。在线的预测是15分钟,咱们称为超短时间的预测,这个业务如今仍是在边缘节点,也就是分布在各个场站和省中心、区域中心,咱们如今是计划一点点把它部署到公有云上来计算,进而提升预测准确度。

在业务系统上边,如今正在面临一些挑战,好比,客户的需求不稳定。咱们从2015年才开始开发这个系统,并且每一个客户的需求不彻底一致,所以这个系统更新的次数很频繁。你们可能认为一个传统的企业,它的软件的产品发布不该该那么频繁,可是事实上并不是如此,随着能源互联网,包括可再生能源这些绿色清洁环保的能源受到中国政府的重视,为了实现平价的上网,考核的力度在不断加大。若是这些新能源要平价的上网,包括功率测的准确度,是在其中起到重要支撑做用的一个业务,所以客户的需求不断的变,系统更新的频率也在不断的增长。另一点,就是以前提到AI算法,其实想放到云端,可是这是一个在线的业务,涉及到数据的回传,若是算完以后再下发下去,整个过程会变得很是复杂。从偏远山区到一个省中心,再到客户的数据中心,通常是在一个大城市,而后再到咱们的公有云上,整个链路很是长,数据的回传跟下发十分复杂,再加上刚才说的网络的结构也很是复杂,致使若是在线AI算法十分麻烦。

另外有一条是在公有云上的业务,底层也是基于容器云平台,咱们本身作了一套,数据弧的这一层稍微简单,也分了采集进存储,存储里边是咱们本身用的,业务数据库用的是MongoDB,有一部分是Hadoop,GlusterFS,S3。上面分了三部分,一部分是咱们作功率测的业务层,包括它的运营也是一条ETL展现。另一个部分,其中一个核心是天气预报,紫色的那个颜色WRF其实是天气预报里一个核心的高效能的计算,相似于HPC那样,它通常跑在超算中心或者是公有云上。通常状况下,运行在超算中心,这个超算中心是没有云化的,因此那个业务也比较复杂。另一点就是一个独立的AI模块,将它作了一个训练进预测的拆分。整个业务是三大业务,再加上底层的容器云平台,把那个存储层做为一个公共的池子,这是现有的业务架构,但实际上这会不断的变化,并且也在不断的扩大。

在公有云上这套业务系统里边,目前最大挑战是要实现跨业务部门,好比作功率测的,还有一些集中监控、预警等不少个部门,整个产品线大概包括10个到20个产品,所以各个部门之间数据要常常的相互流动,要作成公共的平台性的业务。此外,还要实现对外服务,对客户可以发布一个通用的服务。

关于能源气象这个部分,咱们开始把它作成一个国际化的能源气象服务。另外,风能和太阳能能够同时去提供服务。虽然咱们自己是作风力发电的,可是实际上在功率测方面是不分风和太阳能的,因此这个服务是把两个所有加到一块儿。

除了在AI算法里边的挑战,在公有云上的挑战就是此前提到的在线的预测系统如何搭建,包括数据的传输层是很复杂的。另一点就是在大数据跟AI一个总体的解决方案的搭建。

机遇与挑战

咱们现有的机遇跟挑战,从DevOps角度来看,以前咱们大概是两周一次的发布频率,速度很慢,由于涉及到不少个电场同时去发布是十分复杂的,可是如今几乎能作到一天一次,这是用容器化的平台的优点,便可以实现更高的发布速度。另一个挑战是,因为咱们是传统企业,大部分的运维人员实际上对新的技术了解得比较少,所以对他们来讲要求较高。如今整个运维团队有十几我的,可是实际上真正懂这个技术的只有一两我的,因此这个挑战很大。另一部分就是在微孵化改造的过程当中遇到一些问题,好处是系统扩展性变强了,可是随着业务不断地迭代,业务不断地增长的时候,拆分力度很难把握。如今有些服务开始拆掉,有些服务要合并,这对整个架构是一个很是大的挑战。另一点挑战就是为了提升准确率,在AI层面会有一些很大的困难。机遇就是对于算法工程师来讲,他们不须要再去部署底层的架构,下降运维的成本。首先他们实际上不是在一个公有云、一个集中式的系统上,而是分布在几百个这种电场,运维成本很高。算法工程师在发布这个算法的时候,实际上他们学习Docker技术是十分困难的,由于大部分算法工程师是学数学出身的。

总 结

金风科技如今大概使用这个系统已经有两年的时间,目前可以实现运维成本能下降50%左右,迭代速度提升10倍,从两周一次增快到一天一次,而且如今已经覆盖50%的电场,大概的规模是200个左右,覆盖的客户有五个大的集团客户,有十多个省中心的客户。

后续将会为你们带来更多大会的演讲实录,请保持关注Rancher 公众号的最新推送~

相关文章
相关标签/搜索