【转载】大数据架构和模式

时间 2019-11-18

原文原文链接

http://www.ibm.com/developerworks/cn/data/library/bd-archpatterns1/index.htmlhtml

第 1 部分: 大数据分类和架构简介

概述

大数据可经过许多方式来存储、获取、处理和分析。每一个大数据来源都有不一样的特征，包括数据的频率、量、速度、类型和真实性。处理并存储大数据时，会涉及到更多维度，好比治理、安全性和策略。选择一种架构并构建合适的大数据解决方案极具挑战，由于须要考虑很是多的因素。算法

这个 “大数据架构和模式” 系列提供了一种结构化和基于模式的方法来简化定义完整的大数据架构的任务。由于评估一个业务场景是否存在大数据问题很重要，因此咱们包含了一些线索来帮助肯定哪些业务问题适合采用大数据解决方案。数据库

回页首编程

从分类大数据到选择大数据解决方案

试用 IBM 大数据解决方案

下载 IBM 大数据解决方案的试用版，查看它在您本身的环境中如何工做。从多款产品中进行选择：后端

BigInsights Quick Start Edition，IBM 基于 Hadoop 的产品，经过 Big SQL、文本分析和 BigSheets 等功能扩展了开源 Hadoop 的价值。
InfoSphere Streams Quick Start Edition 是 InfoSphere Streams 的一个非生产版本，是一个可快速获取、分析和关联从数千个实时来源传来的信息的高性能计算平台。
其余许多大数据和分析产品提供了试用版下载。

若是您花时间研究过大数据解决方案，那么您必定知道它不是一个简单的任务。本系列将介绍查找知足您需求的大数据解决方案所涉及的主要步骤。浏览器

咱们首先介绍术语 “大数据” 所描述的数据类型。为了简化各类大数据类型的复杂性，咱们依据各类参数对大数据进行了分类，为任何大数据解决方案中涉及的各层和高级组件提供一个逻辑架构。接下来，咱们经过定义原子和复合分类模式，提出一种结构来分类大数据业务问题。这些模式有助于肯定要应用的合适的解决方案模式。咱们提供了来自各行各业的示例业务问题。最后，对于每一个组件和模式，咱们给出了提供了相关功能的产品。安全

第 1 部分将介绍如何对大数据进行分类。本系列的后续文章将介绍如下主题：网络

定义大数据解决方案的各层和组件的逻辑架构
理解大数据解决方案的原子模式
理解用于大数据解决方案的复合（或混合）模式
为大数据解决方案选择一种解决方案模式
肯定使用一个大数据解决方案解决一个业务问题的可行性
选择正确的产品来实现大数据解决方案

回页首数据结构

依据大数据类型对业务问题进行分类

业务问题可分类为不一样的大数据问题类型。之后，咱们将使用此类型肯定合适的分类模式（原子或复合）和合适的大数据解决方案。但第一步是将业务问题映射到它的大数据类型。下表列出了常见的业务问题并为每一个问题分配了一种大数据类型。架构

表 1. 不一样类型的大数据业务问题

业务问题	大数据问题	描述
公用事业：预测功耗	机器生成的数据	公用事业公司推出了智慧仪表，按每小时或更短的间隔按期测量水、自然气和电力的消耗。这些智慧仪表生成了须要分析的大量间隔数据。公用事业公司还运行着昂贵而又复杂的大型系统来发电。每一个电网包含监视电压、电流、频率和其余重要操做特征的复杂传感器。要提升操做效率，该公司必须监视传感器所传送的数据。大数据解决方案可使用智慧仪表分析发电（供应）和电力消耗（需求）数据。
电信：客户流失分析	Web 和社交数据交易数据	电信运营商须要构建详细的客户流失模型（包含社交媒体和交易数据，好比 CDR），以跟上竞争形势。流失模型的值取决于客户属性的质量（客户主数据，好比生日、性别、位置和收入）和客户的社交行为。实现预测分析战略的电信提供商可经过分析用户的呼叫模式来管理和预测流失。
市场营销：情绪分析	Web 和社交数据	营销部门使用 Twitter 源来执行情绪分析，以便肯定用户对公司及其产品或服务的评价，尤为是在一个新产品或版本发布以后。客户情绪必须与客户概要数据相集成，才能获得有意义的结果。依据客户的人口统计特征，客户反馈可能有所不一样。
客户服务：呼叫监视	人类生成的	IT 部门正在依靠大数据解决方案来分析应用程序日志，以便获取可提升系统性能的洞察。来自各类应用程序供应商的日志文件具备不一样的格式；必须将它们标准化，而后 IT 部门才能使用它们。
零售：基于面部识别和社交媒体的个性化消息	Web 和社交数据生物识别	零售商可结合使用面部识别技术和来自社交媒体的照片，根据购买行为和位置向客户提供个性化的营销信息。此功能对零售商忠诚度计划具备很大的影响，但它具备严格的隐私限制。零售商须要在实现这些应用程序以前进行适当的隐私披露。
零售和营销：移动数据和基于位置的目标	机器生成的数据交易数据	零售商可根据位置数据为客户提供特定的促销活动和优惠券。解决方案一般旨在在用户进入一个店铺时检测用户的位置，或者经过 GPS 检测用户的位置。位置数据与来自社交网络的客户偏好数据相结合，使零售商可以根据购买历史记录针对性地开展在线和店内营销活动。通知是经过移动应用程序、SMS 和电子邮件提供的。
FSS、医疗保健：欺诈检测	机器生成的数据交易数据人类生成的	欺诈管理可预测给定交易或客户账户遇到欺诈的可能性。解决方案可实时分析事务，生成建议的当即执行的措施，这对阻止第三方欺诈、第一方欺诈和对账户特权的蓄意滥用相当重要。解决方案一般旨在检测和阻止多个行业的众多欺诈和风险类型，其中包括：信用卡和借记卡欺诈存款账户欺诈技术欺诈坏帐医疗欺诈医疗补助计划和医疗保险欺诈财产和灾害保险欺诈工伤赔偿欺诈保险欺诈电信欺诈

按类型对大数据问题分类，更容易看到每种数据的特征。这些特征可帮助咱们了解如何获取数据，如何将它处理为合适的格式，以及新数据出现的频率。来自不一样来源的数据具备不一样的特征；例如，社交媒体数据包含不断传入的视频、图像和非结构化文本（好比博客文章）。

咱们依据这些常见特征来评估数据，下一节将详细介绍这些特征：

内容的格式
数据的类型（例如，交易数据、历史数据或主数据）
将提供该数据的频率
意图：数据须要如何处理（例如对数据的临时查询）
处理是否必须实时、近实时仍是按批次执行。

行业	示例用例
电子商务和在线零售	电子零售商（好比 eBay）在不断建立针对性产品来提升客户终生价值 (CLV)；提供一致的跨渠道客户体验；从销售、营销和其余来源收获客户线索；并持续优化后端流程。推荐引擎：经过基于对交叉销售的预测分析来推荐补充性产品，增长平均订单大小。跨渠道分析：销售属性、平均订单价值和终生价值（例如多少店内购买活动源自特定的推荐、广告或促销）。事件分析：那一系列步骤（黄金路线）获得了想要的结果（例如产品购买或注册）？ “恰当时机的恰当产品” 和 “下一款最佳产品”：结合部署预测模型和推荐引擎，获得自动化的下一款最佳产品和跨多个交互渠道的经调整的交互。
零售和专一于客户	推销和市场篮分析营销活动管理和客户忠诚度计划供应链管理和分析基于事件和行为的目标市场和用户细分预测分析：在将产品放在货架上以前，零售商但愿预测可能对购买者相当重要的一些因素
金融服务	合规性和监管报告风险分析和管理欺诈检测和安全分析 CRM 和客户忠诚度计划信用风险、评分和分析高速套利交易交易监管异常交易模式分析
欺诈检测	欺诈管理可预测给定交易或客户账户遇到欺诈的可能性，帮助提升客户带来的利润。解决方案将会实时分析交易，生成当即行动建议，这对阻止第三方欺诈、第一方欺诈和账户特权的蓄意滥用相当重要。解决方案一般设计用于跨多个行业检测和阻止各类各样的欺诈和风险类型，这些类型包括：信用卡和借记卡欺诈存款账户欺诈技术欺诈和坏帐医疗欺诈医疗补助计划和医疗保险欺诈财产和灾害保险欺诈工伤赔偿欺诈保险欺诈
Web 和数字媒体	咱们目前处理的许多数据是增多的社交媒体和数字营销的直接后果。客户生成一连串可挖掘并投入使用的 “数据废气”。大规模单击流分析广告投放、分析、预测和优化滥用和单击欺诈预防社交图分析和概要细分营销活动管理和忠诚度计划
公共领域	欺诈检测威胁检查网络安全合规性和监管分析能耗和碳排放管理
健康和生命科学	健康保险欺诈检测营销活动和销售计划优化品牌管理患者护理质量和程序分析医疗设备和药物供应链管理药品发现和开发分析
电信	收入保障和价格优化客户流失预防营销活动管理和客户忠诚度呼叫详细记录 (CDR) 分析网络性能和优化移动用户位置分析
公用事业	公用事业公司运行大型、昂贵、复杂的系统来发电。每一个电网包含监视电压、电流、频率和其余重要操做特征的复杂传感器。效率意味着密切关注从传感器传来的全部数据。公用事业公司如今正利用 Hadoop 集群来分析分析发电（供应）和电力消耗（需求）数据。智慧仪表的采用致使史无前例的数据流汹涌而来。大多数公用事业公司都未作好充分准备在开启仪表后分析该数据。
媒体	在有线行业，大型有线运营商（好比 Time Warner、Comcast 和 Cox Communications）天天均可以使用大数据来分析机顶盒数据。能够利用此数据来调整广告或促销活动。
杂项	Mashup：移动用户位置和精度目标机器生成的数据在线约会：一个领先的在线约会服务使用复杂的分析来度量各个成员之间的兼容性，以便建议匹配的商品在线游戏飞机和汽车的预测性维护

解决方案模式	复合模式
入门	存储和探索
得到高级业务洞察	专用和预测分析
采起下一个最佳行动	可操做的分析

【转载】大数据架构和模式

第 1 部分: 大数据分类和架构简介

概述

从分类大数据到选择大数据解决方案

试用 IBM 大数据解决方案

依据大数据类型对业务问题进行分类

表 1. 不一样类型的大数据业务问题

使用大数据类型对大数据特征进行分类

图 1. 大数据分类

结束语和致谢

第 2 部分: 如何知道一个大数据解决方案是否适合您的组织

简介

个人大数据问题是否须要大数据解决方案？

大数据，曾几什么时候彷佛不多出现

维度可帮助评估大数据解决方案的可行性

图 1. 评估大数据解决方案的可行性时要考虑的维度

业务价值：可经过大数据技术获取何种洞察？

表 1. 来自各行各业的示例用例

肯定数据的优先级

我当前的环境可否扩展？

扩展我当前的环境的成本是多少？

对数据的治理和控制：对现有的 IT 治理有何影响？

我可否增量地实现大数据解决方案？

人员：是否已有恰当的技能并调整了合适的人员？

是否拥有可用于获取洞察的现有数据？

数据复杂性是否在增加？

数据量是否已增加？

数据种类是否已增多？

数据的速度是否已增加或改变？

您的数据是否值得信赖？

是否全部大数据都存在大数据问题？

第 3 部分: 理解大数据解决方案的架构层

概述

试用 IBM 大数据解决方案

大数据解决方案的逻辑层

图 1. 逻辑和垂直层的组件

大数据来源

数据改动和存储层

分析层

使用层

垂直层

信息集成

大数据治理

服务质量层

系统管理

结束语

第 4 部分: 了解用于大数据解决方案的原子模式和复合模式

简介

试用 IBM 大数据解决方案

图 1. 模式的类别

原子模式

图 2. 用于数据使用、处理、数据访问和存储的原子模式的示例

数据使用模式

可视化模式

即席发现模式

增强传统的数据存储

通知模式

启动一个自动响应模式

处理模式

历史数据分析模式

高级分析模式

预处理原始数据模式

即席分析模式

访问模式

Web 和社交媒体访问模式

图 3. Web 和社交媒体访问

图 4. 大数据访问步骤

非结构化数据存储中的 Web 媒体访问

Web 媒体访问为结构化存储预处理数据

Web 媒体访问预处理非结构化数据

非结构化或结构化数据的 Web 媒体访问

Web 媒体访问预处理非结构化数据

设备生成的数据模式

图 5. 设备生成的数据访问

事务、运营和仓库数据模式

数据访问模式的特殊变化：生物特征数据访问

存储模式

分布式非结构化数据的存储模式

分布式结构化数据的存储模式

传统数据存储的存储模式