数据中台并不是舶来品,而是中国互联网巨头制造出来的概念。架构
事实上,在国内各行各业掀起一股所谓的数据中台热之际,国外用户却对之鲜有说起。可是,这并不表明国外市场对于数据价值不重视。偏偏相反,在欧美等数字化程度很高的市场里,DataOps理念已经深刻人心。所谓DataOps并不只仅是某种产品、服务或者解决方案,而是AI时代全新的企业数据管理模式,目的是快速发现和使用整个用户架构中所有数据所蕴含的价值。运维
所以,不管是数据中台仍是DataOps,很有“殊途同归之妙”,只是称呼不一样而已。对于传统行业用户而言,一味将本身的发展放入到互联网公司的环境之中有失偏颇,反而一些在传统行业数据价值实践有着丰富经验的厂商的观点值得学习与借鉴。机器学习
近日,在DataOps领域有着深厚积累、丰富实践经验、完善产品与解决方案的Hitachi Vantara公司就目前国内数据中台热潮、数据分析等热门话题进行了一番分析。正所谓兼听则明,Hitachi Vantara关于数据中台的观点,值得国内用户进一步思考。分布式
与天生就是数字原生的互联网公司相比,传统行业大部分企业,其数字化的进程是从无到有、稳步进化的过程。这就决定了传统企业数据价值之路不可能一蹴而就。事实也的确如此,从过去的数据仓库、数据管理,到如今的大数据平台、数据中台,传统企业的数据分析与价值挖掘经历好几个阶段。ide
用Hitachi Vantara中国区数据与分析业务总监于希国的观点归纳为:90年代的传统BI/DW分析时代,这个阶段主要以批处理、集中式的方式去解决结构化数据的处理需求;随着移动互联网、社交媒体在2005年以后的崛起,大量多源、异构的数据开始产生,从2010年进入到商务大数据的阶段,传统集中式的数据分析方式不能胜任,随之而来的就是Hadoop这种分布式处理的出现,而且有多个数据分析应用开始出如今互联网、金融等行业之中;从2016年开始,数据分析真正进入到ML/AI大数据分析阶段,传感、实时、专业、闭环是其显著特色,而且开始影响社会的方方面面。工具
Hitachi Vantara中国区数据与分析业务总监于希国oop
正由于如此,传统行业在数据分析与价值挖掘之路上可能会面临着更加复杂的局面。传统企业可能会面临着比互联网公司更加复杂与多样的数据环境、技术环境和需求特色。于希国介绍,当前不少企业在数据分析上面临着三个很是明显的挑战:性能
首先是不少用户的环境存在着传统数仓产品、开源产品并存的局面,尤为是开源的流行,大量开源产品融入到用户环境之中,可是这些不一样的软件产品之间很难一块儿工做,很容易又造成一个个孤岛,为后续的数据分析带来巨大的隐患。学习
其次,对于传统行业用户而言,在多源、异构、海量数据的注入下,不一样软件之间彼此难以沟通,业务调用、性能提高都是很是典型的挑战。测试
第三,对于不少用户存在的传统数仓产品,大部分都是封闭系统,很难将新的技术、产品嵌入到应用之中,好比像机器学习这些热门技术与应用等。
正由于如此,数据中台的价值才得以彰显。于希国表示,对于数据中台,Hitachi Vantara称之为DataOps,即在数据的消费者和数据的管理者之间创建一个很好的链接,使前台应用服务与后台数据之间起到很好的衔接与支撑做用,让数据分析更加自动化、平民化和业务化。
事实上,数据中台所扮演的角色就是集合数据采集、融合、治理、组织管理、智能分析为一体,以高效的方式将数据以服务方式提供给业务前台使用,以提高业务运行效率、持续促进业务创新。可是数据中台的建设每每又具备复杂性,须要根据行业用户自身的行业属性、业务实际状况来综合考虑。所以,数据中台产品与解决方案不只须要可以应对足够的复杂性,还必须足够健壮,能够实现好的扩展性和灵活性,以支撑将来业务各类可能的弹性变化。
在于希国看来,数据中台的建设须要一个纽带,能够将传统企业以往各类不一样的软件、解决方案集成起来,就像一个“数据管道”同样,可以让数据实现真正的高效流动与智能化分析。而Hitachi Vantara Pentaho就扮演着这个多功能、智能化、高效易用的“数据管道”角色,对大幅提高数据分析效率、挖掘数据价值起到关键做用。
事实上,Pentaho做为一个平台,涵盖了从数据接入、集成、交换,到可视化开发、优化,再到数据集市、嵌入式分析,以及机器学习等方面的全数据业务流程。“它让数据分析真正成为一个闭环。”于希国表示。Pentaho能够实现多种数据源快速导入数据湖,还具备数据集成、数据交换、数据迁移平台,同时与全程可视化的开发和大数据计算能力相结合,还能够经过自助式数据集市为数据科学家提供各类数据分析平台,而对于机器学习等人工智能方面的支撑也十分全面。“Pentaho不只支持机器学习、深度学习,还支持强化学习。”
Pentaho做为一款开源软件产品,自从被Hitachi Vantara收购以后,其在功能层面就在不断增强与升级。以目前市面上最新的Pentaho 8.3版本为例,该版本新增了多项功能。好比,升级的数据管道拖拽功能和数据可视化能力使数据的访问、融合和治理更加方便快捷;又好比,在多云成为大趋势下,该版本针对多云服务进行了优化与提高:用户经过Pentaho 8.3能够访问多个云平台中的数据,包括AWS、Google Cloud、Microsoft Azure等。“Pentaho拥有很好的嵌入式能力,若是缺一个驱动(Driver),只须要把驱动作成包进来就能够支撑云的操做。”于希国透露道。
计划于明年2月上市的Pentaho 9.0版本将帮助用户进一步提高数据集成与分析的效率,它将为数据管道的共享、管理和监视活动提供新的数据流服务,能够减小数据管道的拥堵,从边缘到云端,提供先进的数据发现、访问和整合功能。
目前,Pentaho在通过丰富的实践以后,已经沉淀出十大典型应用场景:统一数据交换平台、主机下移与数仓迁移、数据清洗转换性能提高、互联网爬虫与机器学习、数据中心智能运维与监控、IoT工业数据采集与分析、数据可视化和自助分析与报表、非结构化数据转换与分析、数据脱敏与测试开发环境构建、数据多维模型构建与分析。
“最近咱们有个客户在测试ETL数据抽取工具,他已经买入了十多个ETL工具,客户总结出来的24个场景中,这十余款工具没有一款能够所有知足。直到Pentaho的进入,才所有知足24个场景的应用需求。”这个例子当然体现出Pentaho产品的强大,可是也从侧面反映出用户需求的多样化、复杂性和快速变化。
所以,Hitachi Vantara全球副总裁兼中国区总经理戴建平认为数据分析平台每每须要更加开放,“封闭平台局限性太明显了。不少技术出现的很是快,数据分析平台须要更加开放,有能力将这些技术集成起来。Pentaho的优点在于,第一,开源以及良好的兼容性和开放性,能够跟业界各家厂家,包括本土厂家进行互相的迁移。其次,Pentaho是多种数据源类型高效紧密整合的无缝端到端的开放工具平台,既能够把不一样的孤岛、不一样的数据链路打通成为一个总体,也能够集成到客户的复杂、多样的IT环境之中。”
Hitachi Vantara全球副总裁兼中国区总经理戴建平
“咱们看到过有那种客户,最初基于Pentaho早期版原本实施,封闭以后不开源,只靠本身打补丁,逐渐与时代脱节,后面就跟不上发展趋势了。这家客户的版本跟如今Pentaho的版本性能相差十倍之多。”于希国透露道。
事实上,Pentaho做为全球最流行的开源商业智能软件,其开放性、开源性是自身最大的优点。在被Hitachi Vantara收购以后,Pentaho依然保持着其开放和开源的优点。当前,Pentaho社区版全球下载量已经超过了750万,中国地区下载量位列全球第一。Pentaho在全球拥有大量的企业级客户,已经有超过2500个商业版用户,和超过20000个产品部署。
不只如此,Hitachi Vantara在中国市场还强调了生态Co-Creation共创的理念,在金融、教育、医疗、制造等行业均设立了专门的团队,与合做伙伴、客户共同进行创新。“每个行业都存在精准要求和前瞻性的需求,这每每不是一家公司可以作到的。Hitachi Vantara但愿携手合做伙伴、客户共同合做,知足客户的切实需求。”戴建平补充道。
将来,Hitachi Vantara将致力于从两个方面拓展Pentaho的市场与生态。首先是对于Pentaho Kettle开源版本的用户,继续深挖深层次的合做需求;其次,增强合做伙伴的联系,包括ISV等合做伙伴,共同探索Pentaho在行业中如何提供更好的平台工具和推广方式,以产品集成的方式为客户提供更加丰富的选择。
“常常提数据中台的国内最大的电商平台之一就是Pentaho在全球最大的下载客户。”Hitachi Vantara全球副总裁兼中国区总经理戴建平对Pentaho的将来充满自信。