从数据仓库迁移到大数据平台的最佳实践

对于企业开始大数据之旅而言,将冷的或未使用的数据和ETL工作负载从数据仓库卸载到Hadoop /大数据平台是一个非常普遍的起点。 Hadoop这样的平台提供了一种经济的方式来存储数据并进行大数据集的批量处理。 因此,成本是此初始用例的主要驱动力也就不足为奇了。

这些项目在实际实施时会是什么样? 在本文中,我们将研究需要考虑的不同因素,我们将提供一种实现数据仓库卸载的方法,并演示事物如何在Hadoop /大数据世界中转换。 在传统的数据仓库世界中,人们非常习惯于对任务和工作流程进行排序。 数据必须从源系统中提取,转换,然后加载到目标(即数据仓库)中。

在传统的数据仓库世界中,结构和架构至关重要,这导致了明确定义的转换。 在Hadoop和大数据世界中,无需将数据存储为结构化格式。 新工具可以在没有模式的情况下工作,或者在读取时应用模式,或者针对列,键值对和文档数据库进行优化。 没有真正的提取和加载-都是关于数据到达集群后发生的转换。 从数据仓库卸载时,将同时移动数据和转换。 数据生命周期是一个重要的主题,需要考虑三个主要方面:数据摄取,数据集成和数据传递。

  1. 数据摄取 :关于数据摄取,重要的是绘制出现有的数据流,以了解Hadoop体系结构中可能需要进行哪些修改。 MapR提供多种选择。 您可以使用仅MapR平台随附的独特NFS功能将数据提取到群集中。 也可以使用SQOOP之类的工具或Informatica之类的其他第三方工具。 在存储方面,重要的是要了解例如是否需要按天对数据进行分区,以及更新是增量更新还是完全重写。 当涉及到转换时,Hadoop世界中最大的不同是这些发生在事实之后,并且不需要定义用于转换数据的架构的关键步骤。
  2. 数据集成 :在传统的数据仓库世界中,客户通常使用星型模式方法或3NF或两者结合来构建数据模型。 这些技术提供了对数据的紧凑关系理解,并包括集中式数据模型。 可以在Hadoop体系结构中利用这一功能,并且可以在此基础上构建数据微服务 ,这些数据微服务可以针对特定的应用程序进行规范化,立方化或聚合和解释。
  3. 数据交付:在大数据之旅中的某个时刻,客户将需要某种类似于OLAP的功能,并构建多维数据集以轻松向最终用户显示数据。 使用来自广泛Hadoop生态系统的工具,可以使用SQL和完整的编程语言,或者也许使用Atscale之类的工具,在流和批处理模型的基础上构建这些数据“微服务”。

下图显示了如何完成数据生命周期,并有助于将数据卸载和转换为基于Hadoop的环境。

数据生命周期映射器

要解决的另一个关键主题是关于数据结构。 在数据仓库卸载的情况下,关于架构的数据模型可能要做出决策。

  1. 带有MapR-DB的MapR平台中提供的一些独特功能,即使以SQL为例,也可以帮助简化基于键的查找。
  2. 对于定界文件,MapR平台可以直接在这些文件上工作,无需为这些文件设计元数据,然后可以将这些元数据以压缩索引格式(如Avro和Parquet)放置,以加快常规报告和探索查询的速度。
  3. JSON越来越成为嵌套数据的一种关键格式,并且非常灵活。 处理JSON数据是MapR平台的主要优势。 在数据仓库世界中,通常会找到2D表结构和各种聚合以将嵌套维数据放入不同的实体中。 可以通过组织内的不同职能来不同地解释这些内容。 重组这些实体在纯关系数据仓库数据流中提出了一个独特的挑战,但是通过在MapR平台中使用JSON可以更轻松地进行处理。

计费策略和卸载映射器

上面是一个电信领域客户的示例,该客户将其部分数据仓库工作负载迁移到MapR集群。 您可以看到它们从性能和价格方面都受益。

当最终涉及数据迁移时,需要考虑几个不同的观点,以及MapR平台可以在哪些方面帮助这项工作。

  1. 尽管需要进行一些开发工作以涵盖特定于平台的功能(Teradata,Oracle)和SQL兼容性,但是可以付出合理的努力来转移当前数据仓库实现中实现的现有存储过程。
  2. 在系统架构方面,组件可以完全移植到不同的工具集(例如,SQL到Pig),但具有保留其与数据工作流其他部分的接口的能力。 在此级别进行重新架构可以提高开发速度和可管理性,同时有助于促进与数据工作流中其他流程的更直观,更有效的界面。

摘要

在完成数据迁移和转换工作之后,有很多下游好处。 可以应用新的分析工具和方法来获得新的业务见解。 诸如客户360之类的用例以及对现有业务流程的更深入的分析可以提供给业务涉众,并提高运营效率。 从上面的客户示例中可以看出,还可以节省成本并提高性能。 显然,数据仓库迁移和卸载计划不仅可以使底线受益,也可以使顶线受益。 有关MapR在此区域提供的解决方案的更多信息,我们建议您在我们的网站上查看数据仓库优化区域。

翻译自: https://www.javacodegeeks.com/2016/10/best-practices-migrating-data-warehouse-big-data-platform.html