数据湖,是一个并不新颖却愈来愈被用户看重的名词。数据库
从2010年Pentaho公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)首次提出数据湖的概念开始,数据湖十年发展之路可谓是兜兜转转、起起伏伏。在这期间,既有开源厂商们提出的各类营销理念,也有传统存储厂商打造的各种解决方案,更有业界对于数据湖带来的数据沼泽、数据价值探索等问题的深刻思考。服务器
时至现在,数据湖虽然经历了各类各样的“挫折”,可是数据湖在数字化时代给用户带来的价值已经愈发清晰。而率先帮助用户走出数据湖价值落地之路的,不是开源厂商,也不是传统存储厂商,偏偏是以AWS为表明的云服务提供商们。架构
这背后有何原因?这一切还得从数据湖的本质谈起。ide
维基百科对于数据湖的定义是:“Data Lake是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖能够存储结构化数据、非结构化数据以及二进制数据等。”工具
数据湖最大的价值在于能够帮助用户梳理清楚从数据存储、数据汇聚到数据挖掘这些过程。好比,相比于数据仓库对于数据协做有规则限制,数据湖对于数据写入没有限制,能够更容易的收集数据;数据湖能够汇聚来自各类数据源的数据,并进行数据拉通,从而消除数据孤岛的问题;而数据湖中存放着最原始的数据则更加有利于数据价值的挖掘。oop
千万不要小看数据湖所能完成的这些数据处理过程。这些都是用户们在数字化时代发挥数据价值所必不可少的基础。时至今日,数据其实已经成为数字化时代的一种最为重要的生产资料,数据正在加速重塑企业与组织的生产、经营、销售、服务等流程,就如AWS首席云计算企业战略顾问张侠所指出的:“在当今企业中,数据流就是企业的血液流,企业的数字化转型很重要的一个方向就是把数字化的资产好好利用起来。”性能
数据湖成为大势所趋大数据
与此同时,数据湖在过去十年并不缺少产品与解决方案,为什么数据湖失败的案例依然很多,为什么又是以AWS为表明的云服务提供商们率先走在数据湖解决方案落地的最前沿?云计算
事实上,做为很早推进数据湖服务的公司,AWS的数据湖解决方案成功并非偶然。首先,Amazon做为全球最大的互联网公司之一,其数据规模、数据复杂度、数据处理难度、数据价值挖掘在业界无出其右,因为背靠Amazon,AWS数据湖解决方案自然就获得了不断的历练,好比Amazon内部一个数据湖部署--Galaxy,就存储了超过50PB的数据量,天天进行着多达60万的数据分析任务。人工智能
其次,AWS数据湖在产品技术层面进行了持续的提高与完善,其产品组合的成熟度和丰富程度走在了业界的前列。举个例子,大部分数据湖解决方案都是基于开源Hadoop的,但以前Hadoop集群的计算和存储紧耦合架构,使得数据湖架构的扩展成本高、效率低;而AWS在构建数据湖解决方案时候,很重要的一个选择就是让计算与存储分离,在存储上采用S3对象存储服务,从而让数据湖解决方案能够更好地应用在用户业务领域。
另外,AWS做为云计算市场的龙头,其公有云的环境也有利于数据湖解决方案的部署,在过去十年中为多个不一样行业、不一样规模的用户提供相关的数据湖服务,积累了丰富的用户实践经验。
在产品、解决方案以及用户实践上的领先其实就是AWS在数据湖领域脱颖而出的秘诀所在。
从十年前的概念到现在被愈来愈多行业用户所认同和采用,数据湖现在再也不只是一个名词,它更表明着一种进化,它是过去十年数字化驱动下,用户在数据层面的需求、技术、产品不断进化的一个缩影。
过去十年移动化、社交化带来了数据指数级增加、数据来源普遍化、数据类型多元化,而像5G、物联网、边缘计算的兴起,只会加重数据应用的趋势,而且会让现代数据应用的复杂性进一步提高,这偏偏反映出用户过去十年对数据应用的需求不断驱动着数据湖走向落地。
在技术层面来看,云计算、大数据以及人工智能具有自然融合在一块儿的属性,云计算无疑是过去十年对整个IT产业界带来最大变革的技术,它的弹性、灵活为数据湖带来了坚实的基础;而人工智能在过去几年取得突破性的发展,使之成为驱动数据湖发展的最大驱动力之一。
而过去十年也是数据湖产品与解决方案不断走向成熟的十年。像AWS这样的供应商已经逐步打造出很是全面与完善的数据湖解决方案,能够涵盖从数据收集、汇聚到分析、应用、可视化等方方面面。“数据湖从2014年进入了发展的第二个阶段。以AWS为例,围绕数据湖相关的技术、产品已经基本成熟。”张侠如是说。
根据介绍,AWS数据湖平台包括了数据仓库、大数据处理、交互查询、运营分析、数据交换、可视化、实时分析、推荐、预测分析。事实上,AWS这种全面的数据湖生态完整覆盖了数据湖的数据收集、存储、分析、应用四个阶段,而且这些产品、工具以及服务彼此之间并非孤立的,互相配合能够达到更加出色效果,快速、便捷地帮助用户构建起数据湖相关应用。
AWS拥有涵盖全面的数据分析组件
在AWS 数据湖平台中有不少很是出色的组件,能够帮助用户解决数据湖中典型的挑战。好比,Amazon EMR大数据处理组件,能够在AWS上轻松运行Spark、Hadoop、Hive等大数据分析。EMR解决了开源生态集群部署与维护升级繁杂的痛点,这对于用户快速应用数据湖开源产品与工具大有裨益,
而 Amazon Redshift是一款性能优秀、强大、使用简单、全托管的数据仓库服务,能够轻松进行大规模并行处理,支持TB级规模数据的扩展,能够经过Spectrum引发将查询扩展到Amazon S3,与数据湖集成能够进行EB级的数据湖分析。
其余像Amazon Kinesis、AWS Lake Formation、Amazon Aurora、Amazon S3等都是AWS上深受用户喜欢的产品与服务。张侠认为:“数据湖在云计算时代得以快速发展,它发展到如今已经包含了全部的数据库、数据仓库等服务,是企业数据体系的基础。数据湖其实比国内流行的数据中台更加全面,任何想构建数据中台的企业其实均可以在AWS找到全面的解决方案。”
在中国市场,各个行业用户对于数据湖也是经历了一个从认知到承认的过程。张侠坦言,当前中国市场的数据湖应用依然处于早期阶段,整个市场有着很是大的潜力。
中国数据湖市场之因此是一个重要且广阔的市场,无外乎三点:
首先,中国对于数字经济的重视程度超乎想象,从国家政策仍是企业自身都对于发展数字经济有着普遍的共识,数字经济加速推进了各个行业的数字化进程。根据IDC《数据时代2025》白皮书预测,中国数据量预计在将来7年将每一年平均增加30%,位居世界第一,随之而来的就是对于数据存储、汇聚、分析愈来愈多的需求。
其次,在经历了多年的“企业上云”以后,各行各业对于云计算的认知和承认已经造成,在企业加速上云这个过程当中,数据湖做为与云计算自然紧密联系在一块儿的应用,其实已经具有了很是好的基础设施环境,用户在上云以后逐步采用数据湖服务也是顺势而为。
再次,中国市场在5G、人工智能、物联网等领域的步伐快速,尤为是5G商用所带来的云计算、通讯、大数据、人工智能等多项技术走向融合,将来在各个行业中会催生出更多新的现代化数据应用场景,数据湖在这个过程当中将会起到重要的支撑做用。
AWS在数据湖领域深厚的积累有助于推进中国数据湖应用落地
据悉,针对中国市场,AWS近期在中国两个区域陆续上线了多款重磅级的新产品与新服务,其中就包括AWS Glue和Amazon Athena两款跟数据湖相关的服务。张侠透露:“AWS中国以后会陆续上线数据湖相关的产品与服务。随着愈来愈多服务落地中国,中国区用户能够在短短几天以内完成数据湖的创建工做。”
例如,AWS Glue是数据湖应用中一款很是重要的服务,它能够帮助用户创建起无服务器架构的数据目录和ETL服务,自动发现数据并存储Schema,与AWS上运行的Aurora、RDS、Redshift、S3和数据库引擎自然集成,这将给用户在使用数据湖带来巨大好处。举个例子,用户以前想将数据导入Redshift云数据仓库,以前须要本身写ETL管道,很是不方便,现在有了AWS Glue可以快速完成数据的抽取、转换和加载。
“中国市场的确是到了该好好研究与使用数据湖的阶段了,尤为是5G、边缘计算应用上来以后,在数据层面更应该匹配走数据湖这条路。”张侠最后表示道。
整体而言,数据湖一晃已经走过了十年,从一个概念逐步走向落地。在这十年中,以AWS为表明云服务提供商们真是洞悉了用户在数据湖上的需求,而且围绕数据湖打造出来的一系列全面的产品体系,使得数据湖真正走出了一条价值之路。
十年意味着一个阶段的结束,也预示着下一个阶段的开启。数据湖在将来会有更大的舞台。