数据湖真的已经没落了吗?

就在不久前,整个数据世界还在沸沸扬扬地讨论如何建立集中式数据存储,以最大限度地提升数据的可用性,从而达到高级分析的目的。博客们大声疾呼反对数据湖,支持组织良好的数据库,开源社区团结在Hadoop生态系统周围,大数据技术飞速发展。本文就这个情况回顾一下推进数据湖采用的一些假设,并注意一下这些假设的稳定性。数据库

假设1: "数据存储很贵,因此创建属于本身的Hadoop数据湖,经济效益看起来更有吸引力。"

过后看来,这个假设如何?网络

能够确定的是,Hadoop中每GB存储的TCO能够比传统RDBMS系统的成本低5%甚至更低。可是,即便是最有经验的企业也很快了解到运营一个企业集群有多难。开源软件的不断更新,管理环境的技能稀缺,以及生态系统的相对不成熟,都形成了难以管理的技术故障和依赖性。除此以外,一旦Hadoop完成了三次数据复制,管理员须要快照和副原本克服Hadoop更新的局限性,1TB的RDBMS数据可能会在湖中变成50TB。这些节省下来的钱就这么多了。架构

新兴的现实:云和云数据仓库

亚马逊、微软和谷歌急于用托管的、基于云的环境来填补这些生产力的空白,这些环境简化了管理,使数据科学家更快地提升生产力。接下来,消费模式取代了Hadoop on-pre环境的资本成本,这意味着人们不太愿意简单地将全部大型数据集倾倒到一个中央环境中。相反,他们根据分析须要加载数据。所以,这就产生了从大型的on-prem数据湖转移到小型的基于云的数据池塘的效果,这些数据池塘是为目的而创建的。再进一步,新的云仓库经过基于SQL的工具使访问和查询这些数据变得简单,这进一步向非技术消费者释放了数据的价值。工具

假设2: "大数据太大了,搬不动。移动一次数据,把电脑移到数据上"。

过后看来,这个假设是怎样的?oop

数据湖的一个关键假设是,网络和处理速度的限制意味着咱们没法将日志文件等数据的大副本移动到集群中进行数据分析。Hadoop也是面向批处理的,这意味着这些类型数据的大批量处理是很是不切实际的。事实证实,数据复制和流媒体的改进,以及网络方面的巨大收益,致使这种状况没有咱们想象的那么真实。性能

新兴的现实:数据虚拟化和流媒体

技术的改进意味着企业能够选择如何访问数据.也许,他们但愿将查询从事务性系统卸载到云环境中;数据复制和流媒体如今是简单的解决方案。也许,交易系统是为高性能查询而构建的;在这种状况下,数据虚拟化功能可使该数据按需提供。所以,企业如今能够选择让数据更多地按需提供给DataOps流程,这意味着并不老是须要将全部企业数据物理地集中在一个位置。大数据

假设3: "读时的数据湖模式将取代写时的数据仓库模式。"

过后看来,这个假设如何?spa

人们已经厌倦了IT团队将ETL写入数据仓库所花费的时间,并迫切但愿简单地释放数据科学家对原始数据的处理。有两个主要的症结所在。首先,数据科学家每每不能轻易地找到他们要找的数据.其次,一旦他们有了数据,分析负责人很快就会发现,他们的ETL只是被数据纠缠工具所取代,由于数据科学仍然须要清理,如标准化和外键匹配。日志

新兴的现实:数据目录和数据运营

智能数据目录已经成为寻找所需数据的关键。如今,企业正试图经过简单的解决方案,在工做场所创建起用户在家中享受的谷歌搜索同样的搜索方式,以查找和访问数据,而无论保存数据的数据存储的物理位置在哪里。DataOps流程也已经出现,它是创建基于领域的数据集的一种方式,这些数据集通过精心规划和管理,能够实现最大的分析生产力。所以,数据科学家应该可以轻松地找到并信任他们用来发现新的看法的数据,通过深思熟虑的技术和流程的融合应该可以使数据管道和分析管道快速运行,以支持这些新发现。这个过程能够实现实时分析。blog

Qlik寻求现代化的数据分析架构时,这些关键的新兴现实是他们须要思考的重点:

  • 基于云的应用和分析架构
  • 数据仓库/RDBMS结构在云中的从新崛起,以实现价值最大化(想一想Snowflake)。
  • 数据流以减小关键数据的延迟
  • 数据虚拟化,以减小数据的复制,直到须要为止。
  • 数据目录,仔细清点和管理企业数据的访问。
  • DataOps流程的出现,为数据和分析管道创造了快速上市的时间。
关于Qlik

Qlik的愿景是一个数据素养的世界,每一个人均可以使用数据来改善决策并解决他们最具挑战性的问题。只有Qlik提供端到端的实时数据集成和分析解决方案,以帮助组织访问全部数据并将其转化为价值。慧都做为Qlik官方的中国合做伙伴,咱们为Qlik的中国用户提供产品受权与实施、定制分析方案、技术培训等服务,旨在让中国企业的每一个Qlik用户都能探索出数据的价值,让企业造成分析文化

相关文章
相关标签/搜索