如何打造高性能大数据分析平台

时间 2019-11-19

原文原文链接

1.大数据是什么?

大数据是最近IT界最经常使用的术语之一。然而对大数据的定义也不尽相同，全部已知的论点例如结构化的和非结构化、大规模的数据等等都不够完整。大数据系统一般被认为具备数据的五个主要特征，一般称为数据的5 Vs。分别是大规模，多样性，高效性、准确性和价值性。java

据Gartner称，大规模能够被定义为“在本(地)机数据采集和处理技术能力不足觉得用户带来商业价值。当现有的技术可以针对性的进行改造后来处理这种规模的数据就能够说是一个成功的大数据解决方案。算法

这种大规模的数据没将不只仅是来自于现有的数据源，同时也会来自于一些新兴的数据源，例如常规(手持、工业)设备，日志，汽车等，固然包括结构化的和非结构化的数据。数据库

据Gartner称，多样性能够定义以下：“高度变异的信息资产，在生产和消费时不进行严格定义的包括多种形式、类型和结构的组合。同时还包括之前的历史数据，因为技术的变革历史数据一样也成为多样性数据之一 “。缓存

高效性能够被定义为来自不一样源的数据到达的速度。从各类设备，传感器和其余有组织和无组织的数据流都在不断进入IT系统。由此，实时分析和对于该数据的解释(展现)的能力也应该随之增长。安全

根据Gartner，高效性能够被定义以下：“高速的数据流I/O(生产和消费)，但主要聚焦在一个数据集内或多个数据集之间的数据生产的速率可变上”。性能优化

准确性，或真实性或叫作精度是数据的另外一个重要组成方面。要作出正确的商业决策，当务之急是在数据上进行的全部分析必须是正确和准确(精确)的。服务器

大数据系统能够提供巨大的商业价值。像电信，金融，电子商务，社交媒体等，已经认识到他们的数据是一个潜在的巨大的商机。他们能够预测用户行为，并推荐相关产品，提供危险交易预警服务，等等。网络

与其余IT系统同样，性能是大数据系统得到成功的关键。本文的中心主旨是要说明如何让大数据系统保证其性能。架构

2.大数据系统应包含的功能模块

大数据系统应该包含的功能模块，首先是可以从多种数据源获取数据的功能，数据的预处理(例如，清洗，验证等)，存储数据，数据处理、数据分析等(例如作预测分析，生成在线使用建议等等)，最后呈现和可视化的总结、汇总结果。框架

下图描述了大数据系统的这些高层次的组件：

2.1各类各样的数据源

当今的IT生态系统，须要对各类不一样种类来源的数据进行分析。这些来源多是从在线Web应用程序，批量上传或feed，流媒体直播数据，来自工业、手持、家居传感的任何东西等等。

显然从不一样数据源获取的数据具备不一样的格式、使用不一样的协议。例如，在线的Web应用程序可能会使用SOAP / XML格式经过HTTP发送数据，feed可能会来自于CSV文件，其余设备则可能使用MQTT通讯协议。

因为这些单独的系统的性能是不在大数据系统的控制范围以内，而且一般这些系统都是外部应用程序，由第三方供应商或团队提供并维护，因此本文将不会在深刻到这些系统的性能分析中去。

2.2数据采集

第一步，获取数据。这个过程包括分析，验证，清洗，转换，去重，而后存到适合大家公司的一个持久化设备中(硬盘、存储、云等)。

在下面的章节中，本文将重点介绍一些关于如何获取数据方面的很是重要的技巧。请注意，本文将不讨论各类数据采集技术的优缺点。

2.3存储数据

第二步，一旦数据进入大数据系统，清洗，并转化为所需格式时，这些过程都将在数据存储到一个合适的持久化层中进行。

在下面的章节中，本文将介绍一些存储方面的最佳实践(包括逻辑上和物理上)。在本文结尾也会讨论一部分涉及数据安全方面的问题。

2.4数据处理和分析

第三步，在这一阶段中的一部分干净数据是去规范化的，包括对一些相关的数据集的数据进行一些排序，在规定的时间间隔内进行数据结果归集，执行机器学习算法，预测分析等。

在下面的章节中，本文将针对大数据系统性能优化介绍一些进行数据处理和分析的最佳实践。

2.5数据的可视化和数据展现

最后一个步骤，展现通过各个不一样分析算法处理过的数据结果。该步骤包括从预先计算汇总的结果(或其余相似数据集)中的读取和用一种友好界面或者表格(图表等等)的形式展现出来。这样便于对于数据分析结果的理解。

3.数据采集中的性能技巧

数据采集是各类来自不一样数据源的数据进入大数据系统的第一步。这个步骤的性能将会直接决定在一个给定的时间段内大数据系统可以处理的数据量的能力。

数据采集过程基于对该系统的个性化需求，但一些经常使用执行的步骤是 – 解析传入数据，作必要的验证，数据清晰，例如数据去重，转换格式，并将其存储到某种持久层。

涉及数据采集过程的逻辑步骤示以下图所示：

下面是一些性能方面的技巧：

来自不一样数据源的传输应该是异步的。可使用文件来传输、或者使用面向消息的(MoM)中间件来实现。因为数据异步传输，因此数据采集过程的吞吐量能够大大高于大数据系统的处理能力。异步数据传输一样能够在大数据系统和不一样的数据源之间进行解耦。大数据基础架构设计使得其很容易进行动态伸缩，数据采集的峰值流量对于大数据系统来讲算是安全的。

若是数据是直接从一些外部数据库中抽取的，确保拉取数据是使用批量的方式。

若是数据是从feed file解析，请务必使用合适的解析器。例如，若是从一个XML文件中读取也有不一样的解析器像JDOM，SAX，DOM等。相似地，对于CSV，JSON和其它这样的格式，多个解析器和API是可供选择。选择可以符合需求的性能最好的。

优先使用内置的验证解决方案。大多数解析/验证工做流程的一般运行在服务器环境(ESB /应用服务器)中。大部分的场景基本上都有现成的标准校验工具。在大多数的状况下，这些标准的现成的工具通常来讲要比你本身开发的工具性能要好不少。

相似地，若是数据XML格式的，优先使用XML(XSD)用于验证。

即便解析器或者校等流程使用自定义的脚原本完成，例如使用java优先仍是应该使用内置的函数库或者开发框架。在大多数的状况下一般会比你开发任何自定义代码快得多。

尽可能提早滤掉无效数据，以便后续的处理流程都不用在无效数据上浪费过多的计算能力。

大多数系统处理无效数据的作法一般是存放在一个专门的表中，请在系统建设之初考虑这部分的数据库存储和其余额外的存储开销。

若是来自数据源的数据须要清洗，例如去掉一些不须要的信息，尽可能保持全部数据源的抽取程序版本一致，确保一次处理的是一个大批量的数据，而不是一条记录一条记录的来处理。通常来讲数据清洗须要进行表关联。数据清洗中须要用到的静态数据关联一次，而且一次处理一个很大的批量就可以大幅提升数据处理效率。

数据去重很是重要这个过程决定了主键的是由哪些字段构成。一般主键都是时间戳或者id等能够追加的类型。通常状况下，每条记录均可能根据主键进行索引来更新，因此最好可以让主键简单一些，以保证在更新的时候检索的性能。

来自多个源接收的数据能够是不一样的格式。有时，须要进行数据移植，使接收到的数据从多种格式转化成一种或一组标准格式。

和解析过程同样，咱们建议使用内置的工具，相比于你本身从零开发的工具性能会提升不少。

数据移植的过程通常是数据处理过程当中最复杂、最紧急、消耗资源最多的一步。所以，确保在这一过程当中尽量多的使用并行计算。

一旦全部的数据采集的上述活动完成后，转换后的数据一般存储在某些持久层，以便之后分析处理，综述，聚合等使用。

多种技术解决方案的存在是为了处理这种持久(RDBMS，NoSQL的分布式文件系统，如Hadoop和等)。

谨慎选择一个可以最大限度的知足需求的解决方案。

4.数据存储中的性能技巧

一旦全部的数据采集步骤完成后，数据将进入持久层。

在本节中将讨论一些与数据数据存储性能相关的技巧包括物理存储优化和逻辑存储结构(数据模型)。这些技巧适用于全部的数据处理过程，不管是一些解析函数生的或最终输出的数据仍是预计算的汇总数据等。

首先选择数据范式。您对数据的建模方式对性能有直接的影响，例如像数据冗余，磁盘存储容量等方面。对于一些简单的文件导入数据库中的场景，你也许须要保持数据原始的格式，对于另一些场景，如执行一些分析计算汇集等，你可能不须要将数据范式化。

大多数的大数据系统使用NoSQL数据库替代RDBMS处理数据。

不一样的NoSQL数据库适用不一样的场景，一部分在select时性能更好，有些是在插入或者更新性能更好。

数据库分为行存储和列存储。

具体的数据库选型依赖于你的具体需求(例如，你的应用程序的数据库读写比)。

一样每一个数据库都会根据不一样的配置从而控制这些数据库用于数据库复制备份或者严格保持数据一致性。

这些设置会直接影响数据库性能。在数据库技术选型前必定要注意。

压缩率、缓冲池、超时的大小，和缓存的对于不一样的NoSQL数据库来讲配置都是不一样的，同时对数据库性能的影响也是不同的。

数据Sharding和分区是这些数据库的另外一个很是重要的功能。数据Sharding的方式可以对系统的性能产生巨大的影响，因此在数据Sharding和分区时请谨慎选择。

并不是全部的NoSQL数据库都内置了支持链接，排序，汇总，过滤器，索引等。

若是有须要仍是建议使用内置的相似功能，由于本身开发的仍是不灵。

NoSQLs内置了压缩、编解码器和数据移植工具。若是这些能够知足您的部分需求，那么优先选择使用这些内置的功能。这些工具能够执行各类各样的任务，如格式转换、压缩数据等，使用内置的工具不只可以带来更好的性能还能够下降网络的使用率。

许多NoSQL数据库支持多种类型的文件系统。其中包括本地文件系统，分布式文件系统，甚至基于云的存储解决方案。

若是在交互式需求上有严格的要求，不然仍是尽可能尝试使用NoSQL本地(内置)文件系统(例如HBase 使用HDFS)。

这是由于，若是使用一些外部文件系统/格式，则须要对数据进行相应的编解码/数据移植。它将在整个读/写过程当中增长本来没必要要的冗余处理。

大数据系统的数据模型通常来讲须要根据需求用例来综合设计。与此造成鲜明对比的是RDMBS数据建模技术基本都是设计成为一个通用的模型，用外键和表之间的关系用来描述数据实体与现实世界之间的交互。

在硬件一级，本地RAID模式也许不太适用。请考虑使用SAN存储。

5.数据处理分析中的性能技巧

数据处理和分析是一个大数据系统的核心。像聚合，预测，汇集，和其它这样的逻辑操做都须要在这一步完成。

本节讨论一些数据处理性能方面的技巧。须要注意的是大数据系统架构有两个组成部分，实时数据流处理和批量数据处理。本节涵盖数据处理的各个方面。

在细节评估和数据格式和模型后选择适当的数据处理框架。

其中一些框架适用于批量数据处理，而另一些适用于实时数据处理。

一样一些框架使用内存模式，另一些是基于磁盘io处理模式。

有些框架擅长高度并行计算，这样可以大大提升数据效率。

基于内存的框架性能明显优于基于磁盘io的框架，可是同时成本也可想而知。

归纳地说，当务之急是选择一个可以知足需求的框架。不然就有可能既没法知足功能需求也没法知足非功能需求，固然也包括性能需求。

一些这些框架将数据划分红较小的块。这些小数据块由各个做业独立处理。协调器管理全部这些独立的子做业

在数据分块是须要小心。

该数据快越小，就会产生越多的做业，这样就会增长系统初始化做业和清理做业的负担。

若是数据快太大，数据传输可能须要很长时间才能完成。这也可能致使资源利用不均衡，长时间在一台服务器上运行一个大做业，而其余服务器就会等待。

不要忘了查看一个任务的做业总数。在必要时调整这个参数。

最好实时监控数据块的传输。在本机机型io的效率会更高，这么作也会带来一个反作用就是须要将数据块的冗余参数提升(通常hadoop默认是3份)这样又会副作用使得系统性能降低。

此外，实时数据流须要与批量数据处理的结果进行合并。设计系统时尽可能减小对其余做业的影响。

大多数状况下同一数据集须要通过屡次计算。这种状况多是因为数据抓取等初始步骤就有报错，或者某些业务流程发生变化，值得一提的是旧数据也是如此。设计系统时须要注意这个地方的容错。

这意味着你可能须要存储原始数据的时间较长，所以须要更多的存储。

数据结果输出后应该保存成用户指望看到的格式。例如，若是最终的结果是用户要求按照每周的时间序列汇总输出，那么你就要将结果以周为单位进行汇总保存。

为了达到这个目标，大数据系统的数据库建模就要在知足用例的前提下进行。例如，大数据系统常常会输出一些结构化的数据表，这样在展现输出上就有很大的优点。

更常见的是，这可能会这将会让用户感受到性能问题。例如用户只须要上周的数据汇总结果，若是在数据规模较大的时候按照每周来汇总数据，这样就会大大下降数据处理能力。

一些框架提供了大数据查询懒评价功能。在数据没有在其余地方被使用时效果不错。

实时监控系统的性能，这样可以帮助你预估做业的完成时间。

6.数据可视化和展现中的性能技巧

精心设计的高性能大数据系统经过对数据的深刻分析，可以提供有价值战略指导。这就是可视化的用武之地。良好的可视化帮助用户获取数据的多维度透视视图。

须要注意的是传统的BI和报告工具，或用于构建自定义报表系统没法大规模扩展知足大数据系统的可视化需求。同时，许多COTS可视化工具现已上市。

本文将不会对这些个别工具如何进行调节，而是聚焦在一些通用的技术，帮助您能打造可视化层。

确保可视化层显示的数据都是从最后的汇总输出表中取得的数据。这些总结表能够根据时间短进行汇总，建议使用分类或者用例进行汇总。这么作能够避免直接从可视化层读取整个原始数据。

这不只最大限度地减小数据传输，并且当用户在线查看在报告时还有助于避免性能卡顿问题。

重分利用大化可视化工具的缓存。缓存能够对可视化层的总体性能产生很是不错的影响。

物化视图是能够提升性能的另外一个重要的技术。

大部分可视化工具容许经过增长线程数来提升请求响应的速度。若是资源足够、访问量较大那么这是提升系统性能的好办法。

尽可能提早将数据进行预处理，若是一些数据必须在运行时计算请将运行时计算简化到最小。

可视化工具能够按照各类各样的展现方法对应不一样的读取策略。其中一些是离线模式、提取模式或者在线链接模式。每种服务模式都是针对不一样场景设计的。

一样，一些工具能够进行增量数据同步。这最大限度地减小了数据传输，并将整个可视化过程固化下来。

保持像图形，图表等使用最小的尺寸。

大多数可视化框架和工具的使用可缩放矢量图形(SVG)。使用SVG复杂的布局可能会产生严重的性能影响。

7.数据安全以及对于性能的影响

像任何IT系统同样安全性要求也对大数据系统的性能有很大的影响。在本节中，咱们讨论一下安全对大数据平台性能的影响。

首先确保全部的数据源都是通过认证的。即便全部的数据源都是安全的，而且没有针对安全方面的需求，那么你能够灵活设计一个安全模块来配置实现。

数据进过一次认证，那么就不要进行二次认证。若是实在须要进行二次认证，那么使用一些相似于token的技术保存下来以便后续继续使用。这将节省数据一遍遍认证的开销。

您可能须要支持其余的认证方式，例如基于PKI解决方案或Kerberos。每个都有不一样的性能指标，在最终方案肯定前须要将其考虑进去。

一般状况下数据压缩后进入大数据处理系统。这么作好处很是明显不细说。

针对不一样算法的效率、对cpu的使用量你须要进行比较来选出一个传输量、cpu使用量等方面均衡的压缩算法。

一样，评估加密逻辑和算法，而后再选择。

明智的作法是敏感信息始终进行限制。

在审计跟踪表或登陆时您可能须要维护记录或相似的访问，更新等不一样的活动记录。这可能须要根据不一样的监管策略和用户需求个性化的进行设计和修改。

注意，这种需求不只增长了数据处理的复杂度，但会增长存储成本。

尽可能使用下层提供的安全技术，例如操做系统、数据库等。这些安全解决方案会比你本身设计开发性能要好不少。

8.总结

本文介绍了各类性能方面的技巧，这些技术性的知道能够做为打造大数据分析平台的通常准则。大数据分析平台很是复杂，为了知足这种类型系统的性能需求，须要咱们从开始建设的时候进行考量。