如何设计成功的数据湖

 

执行摘要

业务用户不断设想出新的创新方法,将数据用于运营报告和高级分析。 Data Lake是下一代数据存储和管理解决方案,旨在知足日益精明的用户不断变化的需求。数据库

本白皮书探讨了企业数据仓库和其余现有数据管理和分析解决方案的现有挑战。 它描述了Data Lake体系结构的必要功能以及利用数据和分析即服务(DAaaS)模型所需的功能。 它还介绍了Data Lake成功实施的特色以及设计Data Lake的关键考虑因素。安全

当前的企业数据仓库挑战

业务用户不断设想出新的创新方法,将数据用于运营报告和高级分析。 随着用户需求的发展以及数据存储技术的进步,当前企业数据仓库解决方案的不足之处变得更加明显。 当今数据仓库面临的如下挑战可能会阻碍使用并阻止用户最大化其分析功能:服务器

  • 及时性 。 向企业数据仓库引入新内容多是一个耗时且繁琐的过程。 当用户须要当即访问数据时,即便是短暂的处理延迟也会使人沮丧,并致使用户绕过正确的流程,转而本身快速获取数据。 用户还可能浪费宝贵的时间和资源从操做系统中提取数据,自行存储和管理数据,而后对其进行分析。
  • 灵活性 。 用户不只无需随时访问他们可能须要的任何数据,并且还可以使用他们选择的工具来分析数据并得到关键看法。 此外,当前的数据仓库解决方案一般存储一种类型的数据,而今天的用户须要可以分析和聚合多种不一样格式的数据。
  • 品质 。 用户可能怀疑地查看当前数据仓库。 若是数据源自何处以及如何处理,则用户可能不信任该数据。 此外,若是用户担忧数据仓库中的数据丢失或不许确,他们可能会绕过仓库,转而直接从其余内部或外部源获取数据,这可能会致使同一数据的多个冲突实例。
  • 可寻找性 。 对于许多当前的数据仓库解决方案,用户没法在须要时快速,轻松地搜索和查找所需的数据。 没法查找数据还限制了用户利用和构建现有数据分析的能力。 
    高级分析用户须要基于IT“推送”模型的数据存储解决方案(不受特定分析项目的驱动)。 与现有的特定于一个或一小部分用例的解决方案不一样,所须要的是一种存储解决方案,能够在整个企业中实现多个不一样的用例。

这种新的解决方案须要以自助服务的形式支持多个报告工具,以便在不进行大量建模的状况下快速提取新数据集,并在提供性能的同时扩展大型数据集。 它应该支持高级分析,如机器学习和文本分析,并容许用户迭代地清理和处理数据,并跟踪数据的谱系以确保合规性。 用户应该可以在一个安全的位置轻松搜索和探索来自多个源的结构化,非结构化,内部和外部数据。架构

符合全部这些标准的解决方案是数据湖。机器学习

数据湖蓝图

 
信息图表显示监督数据湖 
数据湖架构

Data Lake是一个以数据为中心的架构,具备可以以各类格式存储大量数据的存储库。 来自Web服务器日志,数据库,社交媒体和第三方数据的数据被提取到Data Lake中。 经过捕获元数据和沿袭并使其在数据目录(Datapedia)中可用来进行管理。 还适用安全策略,包括权利。工具

数据能够经过批处理或流数据的实时处理流入Data Lake。 此外,数据自己再也不受初始模式决策的约束,而且能够被企业更自由地利用。 超越此存储库的是一组功能,容许IT在供需模型中提供数据和分析即服务(DAaaS)。 IT扮演数据提供者(供应商)的角色,而业务用户(数据科学家,业务分析师)则是消费者。性能

DAaaS模型使用户可以自我提供数据和分析需求。 用户浏览湖泊的数据目录(数据仓库)以查找和选择可用数据,并填写一个隐含的“购物车”(其实是分析沙箱),其中包含可供使用的数据。 一旦配置了访问权限,用户就可使用他们选择的分析工具来开发模型并得到洞察力。 随后,用户能够发布分析模型或将精炼或转换的数据推送回Data Lake以与更大的社区共享。学习

虽然配置分析沙箱是主要用途,但Data Lake还有其余应用程序。 例如,Data Lake也可用于提取原始数据,策划数据和应用ETL。 而后能够将此数据加载到企业数据仓库。 为了利用Data Lake提供的灵活性,组织须要根据其特定要求和域自定义和配置Data Lake。测试

数据湖实施成功的特征

Data Lake使用户可以分析存储在湖中的所有数据和数量。 这须要特征和功能来保护和策划数据,而后对其进行分析,可视化和报告。 成功的Data Lake的特色包括:大数据

  • 使用多种工具和产品 。 从Data Lake中提取最大价值须要任何单一开源平台或商业产品供应商目前没法提供的定制管理和集成。成功的Data Lake所需的跨引擎集成须要多个技术堆栈,这些堆栈自己支持结构化,半结构化和非结构化数据类型。
  • 域规范 。 Data Lake必须针对特定行业量身定制。 为生物医学研究定制的数据湖与为金融服务量身定制的数据湖有很大不一样。Data Lake须要业务感知数据定位功能,使业务用户可以查找,探索,理解和信任数据。 此搜索功能须要提供直观的导航方式,包括关键字,分面和图形搜索。 在这种状况下,这种能力须要复杂的业务本体,其中业务术语能够映射到物理数据。 使用的工具应该可以独立于IT,以便业务用户能够在须要时获取所需的数据,并在必要时进行分析,无需IT干预。
  • 自动化元数据管理 。 Data Lake概念依赖于为湖中的每一个内容捕获一组强大的属性。 数据沿袭,数据质量和使用历史等属性对可用性相当重要。 维护此元数据须要高度自动化的元数据提取,捕获和跟踪功能。 若是没有高度自动化和强制性的元数据管理,Data Lake将迅速成为数据沼泽。
  • 可配置的摄取工做流程 。 在蓬勃发展的数据湖中,业务用户将不断发现新的外部信息来源。 这些新的资源须要迅速加入,以免挫败感,并当即实现机会。 配置驱动的摄取工做流机制能够提供高水平的重用,从而能够重新来源获取简单,安全和可跟踪的内容。
  • 与现有环境集成 。 Data Lake须要融入并支持现有的企业数据管理范例,工具和方法。 它须要一个主管,在须要时集成和管理现有的数据管理工具,如数据分析,数据管理和清理以及数据屏蔽技术。

牢记全部这些因素对于成功构建Data Lake相当重要。

设计Data Lake

设计成功的Data Lake是一项艰巨的任务,须要全面了解技术要求和业务敏锐度,以彻底定制和集成架构,以知足组织的特定需求。

Knowledgent的大数据科学家和工程师提供必要的专业知识,将Data Lake发展为成功的数据和分析即服务解决方案,包括:

  • DAaaS战略服务定义 。 咱们的信息专家利用定义DAaaS平台提供的服务目录,包括数据入门,数据清理,数据转换,数据集,分析工具库等。
  • DAaaS架构 。 咱们帮助客户实现目标状态DAaaS架构,包括构建环境,选择组件,定义工程流程以及设计用户界面。
  • DAaaS PoC 。 咱们设计并执行概念验证(PoC)以演示DAaaS方法的可行性。 使用前沿基础和其余选定工具构建/演示DAaaS平台的主要功能。
  • DAaaS操做模型设计和部署 。 咱们定制咱们的DAaaS运营模式,以知足我的客户的流程,组织结构,规则和治理。 这包括创建DAaaS退款模型,消费跟踪和报告机制。
  • DAaaS平台功能扩建 。 咱们提供专业知识,能够迭代构建全部平台功能,包括设计,开发和集成,测试,数据加载,元数据和目录填充以及部署。

结论

Data Lake能够成为高级分析专家和业务用户的有效数据管理解决方案。 Data Lake容许用户在什么时候以及如何须要时分析各类各样的卷。 遵循数据和分析即服务(DAaaS)模型为用户提供按需自助服务数据。

然而,为了取得成功,Data Lake须要利用众多产品,同时为行业量身定制,并为用户提供普遍,可扩展的定制。 Knowledgent的信息专家提供技术专业知识和商业头脑的融合,帮助组织设计和实施他们完美的Data Lake。

相关文章
相关标签/搜索