【转载】大数据架构和模式

http://www.ibm.com/developerworks/cn/data/library/bd-archpatterns1/index.htmlhtml

第 1 部分: 大数据分类和架构简介

概述

大数据可经过许多方式来存储、获取、处理和分析。每一个大数据来源都有不一样的特征,包括数据的频率、量、速度、类型和真实性。处理并存储大数据时,会涉及到更多维度,好比治理、安全性和策略。选择一种架构并构建合适的大数据解决方案极具挑战,由于须要考虑很是多的因素。算法

这个 “大数据架构和模式” 系列提供了一种结构化和基于模式的方法来简化定义完整的大数据架构的任务。由于评估一个业务场景是否存在大数据问题很重要,因此咱们包含了一些线索来帮助肯定哪些业务问题适合采用大数据解决方案。数据库

 

从分类大数据到选择大数据解决方案

试用 IBM 大数据解决方案

下载 IBM 大数据解决方案的试用版,查看它在您本身的环境中如何工做。从多款产品中进行选择:后端

若是您花时间研究过大数据解决方案,那么您必定知道它不是一个简单的任务。本系列将介绍查找知足您需求的大数据解决方案所涉及的主要步骤。浏览器

咱们首先介绍术语 “大数据” 所描述的数据类型。为了简化各类大数据类型的复杂性,咱们依据各类参数对大数据进行了分类,为任何大数据解决方案中涉及的各层和高级组件提供一个逻辑架构。接下来,咱们经过定义原子和复合分类模式,提出一种结构来分类大数据业务问题。这些模式有助于肯定要应用的合适的解决方案模式。咱们提供了来自各行各业的示例业务问题。最后,对于每一个组件和模式,咱们给出了提供了相关功能的产品。安全

第 1 部分将介绍如何对大数据进行分类。本系列的后续文章将介绍如下主题:网络

  • 定义大数据解决方案的各层和组件的逻辑架构
  • 理解大数据解决方案的原子模式
  • 理解用于大数据解决方案的复合(或混合)模式
  • 为大数据解决方案选择一种解决方案模式
  • 肯定使用一个大数据解决方案解决一个业务问题的可行性
  • 选择正确的产品来实现大数据解决方案
 

依据大数据类型对业务问题进行分类

业务问题可分类为不一样的大数据问题类型。之后,咱们将使用此类型肯定合适的分类模式(原子或复合)和合适的大数据解决方案。但第一步是将业务问题映射到它的大数据类型。下表列出了常见的业务问题并为每一个问题分配了一种大数据类型。架构

表 1. 不一样类型的大数据业务问题
业务问题 大数据问题 描述
公用事业:预测功耗 机器生成的数据

公用事业公司推出了智慧仪表,按每小时或更短的间隔按期测量水、自然气和电力的消耗。这些智慧仪表生成了须要分析的大量间隔数据。

公用事业公司还运行着昂贵而又复杂的大型系统来发电。每一个电网包含监视电压、电流、频率和其余重要操做特征的复杂传感器。

要提升操做效率,该公司必须监视传感器所传送的数据。大数据解决方案可使用智慧仪表分析发电(供应)和电力消耗(需求)数据。

电信:客户流失分析 Web 和社交数据

交易数据

电信运营商须要构建详细的客户流失模型(包含社交媒体和交易数据,好比 CDR),以跟上竞争形势。

流失模型的值取决于客户属性的质量(客户主数据,好比生日、性别、位置和收入)和客户的社交行为。

实现预测分析战略的电信提供商可经过分析用户的呼叫模式来管理和预测流失。

市场营销:情绪分析 Web 和社交数据

营销部门使用 Twitter 源来执行情绪分析,以便肯定用户对公司及其产品或服务的评价,尤为是在一个新产品或版本发布以后。

客户情绪必须与客户概要数据相集成,才能获得有意义的结果。依据客户的人口统计特征,客户反馈可能有所不一样。

客户服务:呼叫监视 人类生成的

IT 部门正在依靠大数据解决方案来分析应用程序日志,以便获取可提升系统性能的洞察。来自各类应用程序供应商的日志文件具备不一样的格式;必须将它们标准化,而后 IT 部门才能使用它们。

零售:基于面部识别和社交媒体的个性化消息 Web 和社交数据

生物识别

零售商可结合使用面部识别技术和来自社交媒体的照片,根据购买行为和位置向客户提供个性化的营销信息。

此功能对零售商忠诚度计划具备很大的影响,但它具备严格的隐私限制。零售商须要在实现这些应用程序以前进行适当的隐私披露。

零售和营销:移动数据和基于位置的目标 机器生成的数据 

交易数据

零售商可根据位置数据为客户提供特定的促销活动和优惠券。解决方案一般旨在在用户进入一个店铺时检测用户的位置,或者经过 GPS 检测用户的位置。

位置数据与来自社交网络的客户偏好数据相结合,使零售商可以根据购买历史记录针对性地开展在线和店内营销活动。通知是经过移动应用程序、SMS 和电子邮件提供的。

FSS、医疗保健:欺诈检测 机器生成的数据 

交易数据 

人类生成的

欺诈管理可预测给定交易或客户账户遇到欺诈的可能性。解决方案可实时分析事务,生成建议的当即执行的措施,这对阻止第三方欺诈、第一方欺诈和对账户特权的蓄意滥用相当重要。

解决方案一般旨在检测和阻止多个行业的众多欺诈和风险类型,其中包括:

  • 信用卡和借记卡欺诈
  • 存款账户欺诈
  • 技术欺诈
  • 坏帐
  • 医疗欺诈
  • 医疗补助计划和医疗保险欺诈
  • 财产和灾害保险欺诈
  • 工伤赔偿欺诈
  • 保险欺诈
  • 电信欺诈

按类型对大数据问题分类,更容易看到每种数据的特征。这些特征可帮助咱们了解如何获取数据,如何将它处理为合适的格式,以及新数据出现的频率。来自不一样来源的数据具备不一样的特征;例如,社交媒体数据包含不断传入的视频、图像和非结构化文本(好比博客文章)。

咱们依据这些常见特征来评估数据,下一节将详细介绍这些特征:

  • 内容的格式
  • 数据的类型(例如,交易数据、历史数据或主数据)
  • 将提供该数据的频率
  • 意图:数据须要如何处理(例如对数据的临时查询)
  • 处理是否必须实时、近实时仍是按批次执行。
 

使用大数据类型对大数据特征进行分类

按特定方向分析大数据的特征会有所帮助,例如如下特征:数据如何收集、分析和处理。对数据进行分类后,就能够将它与合适的大数据模式匹配:

  • 分析类型 — 对数据执行实时分析仍是批量分析。请仔细考虑分析类型的选择,由于这会影响一些有关产品、工具、硬件、数据源和预期的数据频率的其余决策。一些用例可能须要混合使用两种类型:
    • 欺诈检测;分析必须实时或近实时地完成。
    • 针对战略性业务决策的趋势分析;分析可采用批量模式。
  • 处理方法 — 要应用来处理数据的技术类型(好比预测、分析、临时查询和报告)。业务需求肯定了合适的处理方法。可结合使用各类技术。处理方法的选择,有助于识别要在您的大数据解决方案中使用的合适的工具和技术。
  • 数据频率和大小 — 预计有多少数据和数据到达的频率多高。知道频率和大小,有助于肯定存储机制、存储格式和所需的预处理工具。数据频率和大小依赖于数据源:
    • 按需分析,与社交媒体数据同样
    • 实时、持续提供(天气数据、交易数据)
    • 时序(基于时间的数据)
  • 数据类型 — 要处理数据类型 — 交易、历史、主数据等。知道数据类型,有助于将数据隔离在存储中。
  • 内容格式(传入数据的格式)结构化(例如 RDMBS)、非结构化(例如音频、视频和图像)或半结构化。格式肯定了须要如何处理传入的数据,这是选择工具、技术以及从业务角度定义解决方案的关键。
  • 数据源 — 数据的来源(生成数据的地方),好比 Web 和社交媒体、机器生成、人类生成等。识别全部数据源有助于从业务角度识别数据范围。该图显示了使用最普遍的数据源。
  • 数据使用者 — 处理的数据的全部可能使用者的列表:
    • 业务流程
    • 业务用户
    • 企业应用程序
    • 各类业务角色中的各我的员
    • 部分处理流程
    • 其余数据存储库或企业应用程序
  • 硬件 — 将在其上实现大数据解决方案的硬件类型,包括商用硬件或最早进的硬件。理解硬件的限制,有助于指导大数据解决方案的选择。

图 1 描绘用于分类大数据的各类类别。定义大数据模式的关键类别已识别并在蓝色方框中突出显示。大数据模式(将在下一篇文章中定义)来自这些类别的组合。

图 1. 大数据分类

大数据分类

结束语和致谢

在本系列剩余部分中,咱们将介绍大数据解决方案的逻辑架构和各层,从访问到使用大数据。咱们将提供数据源的完整列表,介绍专一于大数据解决方案的每一个重要方面的原子模式。咱们还将介绍复合模式,解释可如何结合使用原子模式来解决特定的大数据用例。本系列最后将提供一些解决方案模式,在普遍使用的用例与各个产品之间创建对应关系。

感谢 Rakesh R. Shinde 在定义本系列的总体结构上提供的指导,以及对本系列的审阅和提供的宝贵评论。

第 2 部分: 如何知道一个大数据解决方案是否适合您的组织

简介

在肯定投资大数据解决方案以前,评估可用于分析的数据;经过分析这些数据而得到的洞察;以及可用于定义、设计、建立和部署大数据平台的资源。询问正确的问题是一个不错的起点。使用本文中的问题将指导您完成调查。答案将揭示该数据和您尝试解决的问题的更多特征。

尽管组织通常状况对须要分析的数据类型有一些模糊的理解,但具体的细节极可能并不清晰。毕竟,数据可能具备以前未发现的模式的关键,一旦识别了一种模式,对额外分析的需求就会变得很明显。要帮助揭示这些未知 的未知信息,首先须要实现一些基本用例,在此过程当中,能够收集之前不可用的数据。构建数据存储库并收集更多数据后,数据科学家就可以更好地肯定关键的数据,更好地构建将生成更多洞察的预测和统计模型。

组织可能也已知道它有哪些信息是不知道的。要解决这些已知的未知,组织首先必须与数据科学家合做,识别外部或第三方数据源,实现一些依赖于此外部数据的用例。

本文首先尝试回答大多数 CIO 在实施大数据举措以前一般会提出的问题,而后,本文将重点介绍一种将帮助评估大数据解决方案对组织的可行性的基于维度的方法。

 

个人大数据问题是否须要大数据解决方案?

大数据,曾几什么时候彷佛不多出现

组织多半会选择以增量方式实现大数据解决方案。不是每一个分析和报告需求都须要大数据解决方案。若是对于对大型数据集或来自多个数据源的临时报告执行并行处理的项目,那么可能没有必要使用大数据解决方案。

随着大数据技术的到来,组织会问本身:“大数据是不是个人业务问题的正确解决方案,或者它是否为我提供了业务机会?”大数据中是否隐藏着业务机会?如下是我从 CIO 那里听到的一些典型问题:

 

维度可帮助评估大数据解决方案的可行性

为了回答这些问题,本文提出了一种依据下图中所示的维度来评估大数据解决方案的可行性的结构化方法。

图 1. 评估大数据解决方案的可行性时要考虑的维度

该图显示了评估大数据解决方案的可行性时要考虑的维度

  • 来自可经过分析数据得到的洞察的业务价值
  • 针对新数据来源和数据使用方式的治理考虑因素
  • 拥有相关技能和赞助商的承诺的人员
  • 捕获的数据量
  • 各类各样的数据源、数据类型和数据格式
  • 生成数据的速度,须要对它执行操做的速度,或者它更改的速度
  • 数据的真实性,或者数据的不肯定性和可信赖性

对于每一个维度,咱们都给出了一些关键问题。依据业务上下文,为每一个维度分配一个权重和优先级。评估会因业务案例和组织的不一样而有所不一样。您能够考虑在与相关的业务和 IT 利益相关者召开的一系列研讨会中探讨这些问题。

 

业务价值:可经过大数据技术获取何种洞察?

许多组织想知道,他们在寻找的业务洞察可否经过大数据解决方案解决。没有权威的指南可以用来定义可从大数据获取的洞察。具体场景须要由组织识别,并且这些场景在不断演变。在肯定和识别在实现后会给企业带来重大价值的业务用例和场景的过程当中,数据科学家起着相当重要的做用。

数据科学家必须可以理解关键绩效指标,对数据应用统计算法和复杂算法来得到一个用例列表。用例因行业和业务不一样而有所不一样。研究市场竞争对手的行动、发挥做用的市场力量,以及客户在寻找什么,会颇有帮助。下表给出了来自各行各业的用例示例。

表 1. 来自各行各业的示例用例
行业 示例用例
电子商务和在线零售 电子零售商(好比 eBay)在不断建立针对性产品来提升客户终生价值 (CLV);提供一致的跨渠道客户体验;从销售、营销和其余来源收获客户线索;并持续优化后端流程。
  • 推荐引擎:经过基于对交叉销售的预测分析来推荐补充性产品,增长平均订单大小。
  • 跨渠道分析:销售属性、平均订单价值和终生价值(例如多少店内购买活动源自特定的推荐、广告或促销)。
  • 事件分析:那一系列步骤(黄金路线)获得了想要的结果(例如产品购买或注册)?
  • “恰当时机的恰当产品” 和 “下一款最佳产品”:结合部署预测模型和推荐引擎,获得自动化的下一款最佳产品和跨多个交互渠道的经调整的交互。
零售和专一于客户
  • 推销和市场篮分析
  • 营销活动管理和客户忠诚度计划
  • 供应链管理和分析
  • 基于事件和行为的目标
  • 市场和用户细分
  • 预测分析:在将产品放在货架上以前,零售商但愿预测可能对购买者相当重要的一些因素
金融服务
  • 合规性和监管报告
  • 风险分析和管理
  • 欺诈检测和安全分析
  • CRM 和客户忠诚度计划
  • 信用风险、评分和分析
  • 高速套利交易
  • 交易监管
  • 异常交易模式分析
欺诈检测 欺诈管理可预测给定交易或客户账户遇到欺诈的可能性,帮助提升客户带来的利润。解决方案将会实时分析交易,生成当即行动建议,这对阻止第三方欺诈、第一方欺诈和账户特权的蓄意滥用相当重要。解决方案一般设计用于跨多个行业检测和阻止各类各样的欺诈和风险类型,这些类型包括:
  • 信用卡和借记卡欺诈
  • 存款账户欺诈
  • 技术欺诈和坏帐
  • 医疗欺诈
  • 医疗补助计划和医疗保险欺诈
  • 财产和灾害保险欺诈
  • 工伤赔偿欺诈
  • 保险欺诈
Web 和数字媒体 咱们目前处理的许多数据是增多的社交媒体和数字营销的直接后果。客户生成一连串可挖掘并投入使用的 “数据废气”。
  • 大规模单击流分析
  • 广告投放、分析、预测和优化
  • 滥用和单击欺诈预防
  • 社交图分析和概要细分
  • 营销活动管理和忠诚度计划
公共领域
  • 欺诈检测
  • 威胁检查
  • 网络安全
  • 合规性和监管分析
  • 能耗和碳排放管理
健康和生命科学
  • 健康保险欺诈检测
  • 营销活动和销售计划优化
  • 品牌管理
  • 患者护理质量和程序分析
  • 医疗设备和药物供应链管理
  • 药品发现和开发分析
电信
  • 收入保障和价格优化
  • 客户流失预防
  • 营销活动管理和客户忠诚度
  • 呼叫详细记录 (CDR) 分析
  • 网络性能和优化
  • 移动用户位置分析
公用事业 公用事业公司运行大型、昂贵、复杂的系统来发电。每一个电网包含监视电压、电流、频率和其余重要操做特征的复杂传感器。效率意味着密切关注从传感器传来的全部数据。

公用事业公司如今正利用 Hadoop 集群来分析分析发电(供应)和电力消耗(需求)数据。

智慧仪表的采用致使史无前例的数据流汹涌而来。大多数公用事业公司都未作好充分准备在开启仪表后分析该数据。

媒体 在有线行业,大型有线运营商(好比 Time Warner、Comcast 和 Cox Communications)天天均可以使用大数据来分析机顶盒数据。能够利用此数据来调整广告或促销活动。
杂项
  • Mashup:移动用户位置和精度目标
  • 机器生成的数据
  • 在线约会:一个领先的在线约会服务使用复杂的分析来度量各个成员之间的兼容性,以便建议匹配的商品
  • 在线游戏
  • 飞机和汽车的预测性维护

潜在的客户正在社交网络和评论站点上生成大量新数据。在企业内,随着客户切换到在线渠道来执行业务和与公司交互,交易数据和 Web 日志与日俱增。

肯定数据的优先级

首先为企业内存在的数据建立一个清单。识别内部系统和应用程序中存在的数据以及从第三方传入的数据。若是业务问题可以使用现有数据解决,那么有可能不须要使用来自外部来源的数据。

请考虑构建一个大数据解决方案的成本,并权衡它与带给业务部门的新洞察的价值。

在有关现有客户的归档数据的上下文中分析此新数据时,业务人员将得到对新业务机会的洞察。

主要知足如下条件,大数据可提供可行的解决方案:

  • 从数据中开发的洞察所生成的价值,值得在大数据解决方案中投入的资本成本
  • 面向客户的场景可证实来自洞察的潜在价值

评估经过大数据解决方案获取的业务价值时,请考虑您当前的环境是否可扩展并权衡此投资的成本。

我当前的环境可否扩展?

询问如下问题,肯定您可否扩充现有的数据仓库平台?

  • 当前的数据集是否很是大,是否达到了 TB 或 PB 数量级?
  • 现有的仓库环境是否包含生成或获取的全部 数据的存储库?
  • 是否有大量冷数据或人们不多接触的数据未分析,能够经过分析这些数据得到业务洞察?
  • 您是否须要丢弃数据,由于没法存储或处理它?
  • 您是否但愿可以在复杂且大量的数据上执行数据探索?
  • 您是否但愿可以对非操做数据执行分析?
  • 您是否有兴趣使用数据执行传统和新类型的分析?
  • 您是否试图延迟对现有数据仓库的升级?
  • 您是否在寻求途径下降执行分析的整体成本?

若是任何这些问题的答案是 “是”,那么您就能够探索扩充现有数据仓库环境的方式。

扩展我当前的环境的成本是多少?

扩展示有数据仓库平台或 IT 环境与实现大数据解决方案的成本和可行性取决于:

  • 现有工具和技术
  • 现有系统的可伸缩性
  • 现有环境的处理能力
  • 现有平台的存储能力
  • 执行的治理和策略
  • 现有 IT 应用程序的异构性
  • 组织中存在的技术和业务技能。

它还依赖于将重新数据来源收集的数据量、业务用例的复杂性、处理的分析复杂性,以及获取数据和拥有恰当技能集的人员的成本。现有的资源池可否开发新的大数据技能,或者是否可从外部雇佣拥有稀缺技能的人员?

请注意,大数据举措会对其余正在实施的项目产生影响。重新的来源获取数据具备很高的成本。您首先应当识别系统和应用程序内部存在的数据,以及目前收到的第三方数据,这一点很重要。若是业务问题可使用现有数据解决,那么有可能不须要使用来自外部来源的数据。

在生成新工具和应用程序以前,请评估组织的应用程序组合。例如,一个普通的 Hadoop 平台可能没法知足您的需求,您可能必须购买专业的工具。或者相对而言,Hadoop 的商业版本对当前用例而言可能很昂贵,但可能须要用做长期投资来支持一个战略性的大数据平台。考虑大数据工具和技术须要的基础架构、硬件、软件和维护的成本。

 

对数据的治理和控制:对现有的 IT 治理有何影响?

在决定是否实现一个大数据平台时,组织可能会查看新数据源和新的数据元素类型,而这些信息当前的全部权还没有明肯定义。一些行业制度会约束组织获取和使用的数据。例如,在医疗行业,经过访问患者数据来从中获取洞察是否合法?相似的规则约束着全部行业。除了 IT 治理问题以外,组织的业务流程可能也须要从新定义和修改,让组织可以获取、存储和访问外部数据。

请在您的状况的上下文中考虑如下治理相关问题:

  • 安全性和隐私— 为了与当地法规一致,解决方案能够访问哪些数据?能够存储哪些数据?哪些数据应在移动过程当中加密?静止数据呢?谁能够查看原始数据和洞察?
  • 数据的标准化— 是否有标准约束数据?数据是否具备专用的格式?是否有部分数据为非标准格式?
  • 数据可用的时段— 数据在一个容许及时采起操做的时段是否可用?
  • 数据的全部权— 谁拥有该数据?解决方案是否拥有适当的访问权和权限来使用数据?
  • 容许的用法:容许如何使用该数据?
 

我可否增量地实现大数据解决方案?

大数据解决方案能够采用增量方式实现。明确地定义业务问题的范围,并以可度量的方式设置预期的业务收入提高,这样作会颇有帮助。

对于基础业务案例,请仔细列出问题的范围和解决方案带来的预期收益。若是该范围过小,业务收益将没法实现,若是范围太大,得到资金和在恰当的期限内完成项目就会颇有挑战性。在项目的第一次迭代中定义核心功能,以便可以轻松地赢得利益相关者的信任。

 

人员:是否已有恰当的技能并调整了合适的人员?

须要特定的技能来理解和分析需求,并维护大数据解决方案。这些技能包括行业知识、领域专长,以及有关大数据工具和技术的技术知识。拥有建模、统计、分析和数学方面的专业经验的数据科学家,是任何大数据举措成功的关键。

在实施一个新的大数据项目以前,确保已安排了合适的人员:

  • 您是否得到利益相关者和其余愿意投资该项目的业务赞助者的支持?
  • 是否拥有熟悉该领域、能分析大量数据、并且能识别从数据生成有意义且有用的洞察的途径的数据科学家?
 

是否拥有可用于获取洞察的现有数据?

全部组织都拥有大量未用于获取业务洞察的数据。这些数据包括日志文件、错误文件和来自应用程序的操做数据。不要忽略此数据,它是宝贵信息的潜在来源。

 

数据复杂性是否在增加?

查找数据复杂性增加的线索,尤为是在数据量、种类、速度和真实性方面。

数据量是否已增加?

若是知足如下条件,您可能但愿考虑大数据解决方案:

  • 数据大小达到 PB 和 EB 级,并且在不久的未来,它们可能增加到 ZB 级别。
  • 这一数据量给使用传统方法(好比关系数据库引擎)存储、搜索、共享、分析和可视化数据带来的技术和经济挑战。
  • 数据处理目前可以使用可用硬件上的大规模并行处理能力。

数据种类是否已增多?

若是知足如下条件,各类各样的数据可能都须要大数据解决方案:

  • 数据内容和结构没法预期或预测。
  • 数据格式各不相同,包括结构化、半结构化和非结构化数据。
  • 用户和机器可以以任何格式生成数据,例如:Microsoft® Word 文件、Microsoft Excel® 电子表格、Microsoft PowerPoint 演示文稿、PDF 文件、社交媒体、Web 和软件日志、电子邮件、来自相机的照片和视频、信息感知的移动设备、空中感知技术、基因组和医疗记录。
  • 之前没有为了得到洞察而被挖掘的数据来源不断地在产生新的数据类型。
  • 领域实体在不一样的上下文中具备不一样的含义。

数据的速度是否已增加或改变?

考虑您的数据是否:

  • 在快速更改,必须当即响应
  • 拥有过多的传统技术和方法,它们再也不足以实时处理传入的数据

您的数据是否值得信赖?

若是知足如下条件,那么请考虑使用大数据解决方案:

  • 数据的真实性或准确性未知。
  • 数据包含模糊不清的信息。
  • 不清楚数据是否完整。

若是数据的量、种类、速度或真实性具备合理的复杂性,那么有可能会适合地采用大数据解决方案。对于更复杂的数据,须要评估与实现大数据解决方案关联的任何风险。对于不太复杂的数据,则应该评估传统的解决方案。

 

是否全部大数据都存在大数据问题?

不是全部大数据情形都须要大数据解决方案。请在市场中寻找线索。竞争对手在作什么?哪些市场力量在发挥做用?客户想要什么?

使用本文中的问题,帮助肯定大数据解决方案是否适合于您的业务情形和您须要的业务洞察。若是认为是时候实施大数据项目了,请阅读下一篇文章,其中会介绍如何定义一个逻辑架构,并且将会肯定您的大数据解决方案须要的关键组件。

第 3 部分: 理解大数据解决方案的架构层

概述

这个 “大数据架构和模式” 系列的 第 2 部分 介绍了一种评估大数据解决方案可行性的基于维度的方法。若是您已经使用上一篇文章中的问题和提示分析了本身的状况,而且已经决定开始构建新的(或更新现有的)大数据解决方案,那么下一步就是识别定义项目的大数据解决方案所需的组件。

试用 IBM 大数据解决方案

下载 IBM 大数据解决方案的试用版,查看它在您本身的环境中如何工做。从多款产品中进行选择:

大数据解决方案的逻辑层

逻辑层提供了一种组织您的组件的方式。这些层提供了一种方法来组织执行特定功能的组件。这些层只是逻辑层;这并不意味着支持每层的功能在独立的机器或独立的进程上运行。大数据解决方案一般由如下逻辑层组成:

  1. 大数据来源
  2. 数据改动 (massaging) 和存储层
  3. 分析层
  4. 使用层
  • 大数据来源:考虑来自全部渠道的,全部可用于分析的数据。要求组织中的数据科学家阐明执行您须要的分析类型所需的数据。数据的格式和起源各不相同:
    • 格式— 结构化、半结构化或非结构化。
    • 速度和数据量— 数据到达的速度和传送它的速率因数据源不一样而不一样。
    • 收集点— 收集数据的位置,直接或经过数据提供程序,实时或以批量模式收集数据。数据可能来自某个主要来源,好比天气条件,也有可能来自一个辅助来源,好比媒体赞助的天气频道。
    • 数据源的位置— 数据源可能位于企业内或外部。识别您具备有限访问权的数据,由于对数据的访问会影响可用于分析的数据范围。
  • 数据改动和存储层:此层负责从数据源获取数据,并在必要时,将它转换为适合数据分析方式的格式。例如,可能须要转换一幅图,才能将它存储在 Hadoop Distributed File System (HDFS) 存储或关系数据库管理系统 (RDBMS) 仓库中,以供进一步处理。合规性制度和治理策略要求为不一样的数据类型提供合适的存储。
  • 分析层:分析层读取数据改动和存储层整理 (digest) 的数据。在某些状况下,分析层直接从数据源访问数据。设计分析层须要认真地进行事先筹划和规划。必须制定如何管理如下任务的决策:
    • 生成想要的分析
    • 从数据中获取洞察
    • 找到所需的实体
    • 定位可提供这些实体的数据的数据源
    • 理解执行分析须要哪些算法和工具。
  • 使用层:此层使用了分析层所提供的输出。使用者能够是可视化应用程序、人类、业务流程或服务。可视化分析层的结果可能具备挑战。有时,看看相似市场中的竞争对手是如何作的会有所帮助。

每一层包含多种组件类型,下面将会介绍这些类型。

图 1. 逻辑和垂直层的组件

该图显示了逻辑和垂直层的组件

大数据来源

此层包含全部必要的数据源,提供了解决业务问题所需的洞察。数据是结构化、半结构化和非结构化的数据,并且来自许多来源:

  • 企业遗留系统— 这些系统是企业应用程序,执行业务须要的分析并获取须要的洞察:
    • 客户关系管理系统
    • 结算操做
    • 大型机应用程序
    • 企业资源规划
    • Web 应用程序开发

    Web 应用程序和其余数据来源扩充了企业拥有的数据。这些应用程序可以使用自定义的协议和机制来公开数据。

  • 数据管理系统 (DMS)— 数据管理系统存储逻辑数据、流程、策略和各类其余类型的文档:
    • Microsoft® Excel® 电子表格
    • Microsoft Word 文档

    这些文档能够转换为可用于分析的结构化数据。文档数据可公开为领域实体,或者数据改动和存储层可将它转换为领域实体。

  • 数据存储— 数据存储包含企业数据仓库、操做数据库和事务数据库。此数据一般是结构化数据,可直接使用或轻松地转换来知足需求。这些数据不必定存储在分布式文件系统中,具体依赖于所处的上下文。
  • 智慧设备— 智慧设备可以捕获、处理和传输使用最普遍的协议和格式的信息。这方面的示例包括智能电话、仪表和医疗设备。这些设备可用于执行各类类型的分析。绝大多数智慧设备都会执行实时分析,但从智慧设备传来的信息也可批量分析。
  • 聚合的数据提供程序— 这些提供程序拥有或获取数据,并以复杂的格式和所需的频率经过特定的过滤器公开它。天天都会产生海量的数据,它们具备不一样的格式,以不一样的速度生成,并且经过各类数据提供程序、传感器和现有企业提供。
  • 其余数据源— 有许多数据来自自动化的来源:
    • 地理信息:
      • 地图
      • 地区详细信息
      • 位置详细信息
      • 矿井详细信息
    • 人类生成的内容:
      • 社交媒体
      • 电子邮件
      • 博客
      • 在线信息
    • 传感器数据:
      • 环境:天气、降雨量、湿度、光线
      • 电气:电流、能源潜力等
      • 导航装置
      • 电离辐射、亚原子粒子等
      • 靠近、存在等
      • 位置、角度、位移、距离、速度、加速度
      • 声音、声震动等
      • 汽车、运输等
      • 热量、热度、温度
      • 光学、光、成像、见光度
      • 化学
      • 压力
      • 流动、流体、速度
      • 力、密度级别等
      • 来自传感器供应商的其余数据

数据改动和存储层

由于传入的数据可能具备不一样的特征,因此数据改动和存储层中的组件必须可以以各类频率、格式、大小和在各类通讯渠道上读取数据:

  • 数据获取— 从各类数据源获取数据,并将其发送到数据整理组件或存储在指定的位置中。此组件必须足够智能,可以选择是否和在何处存储传入的数据。它必须可以肯定数据在存储前是否应改动,或者数据是否可直接发送到业务分析层。
  • 数据整理— 负责将数据修改成须要的格式,以实现分析用途。此组件可拥有简单的转换逻辑或复杂的统计算法来转换源数据。分析引擎将会肯定所需的特定的数据格式。主要的挑战是容纳非结构化数据格式,好比图像、音频、视频和其余二进制格式。
  • 分布式数据存储— 负责存储来自数据源的数据。一般,这一层中提供了多个数据存储选项,好比分布式文件存储 (DFS)、云、结构化数据源、NoSQL 等。

分析层

这是从数据中提取业务洞察的层:

  • 分析层实体识别— 负责识别和填充上下文实体。这是一个复杂的任务,须要高效的高性能流程。数据整理组件应为这个实体识别组件提供补充,将数据修改成须要的格式。分析引擎将须要上下文实体来执行分析。
  • 分析引擎— 使用其余组件(具体来说,包括实体鉴别、模型管理和分析算法)来处理和执行分析。分析引擎可具备支持并行处理的各类不一样的工做流、算法和工具。
  • 模型管理— 负责维护各类统计模型,验证和检验这些模型,经过持续培训模型来提升准确性。而后,模型管理组件会推广这些模型,它们可供实体识别或分析引擎组件使用。

使用层

这一层使用了从分析应用程序获取的业务洞察。分析的结果由组织内的各个用户和组织外部的实体(好比客户、供应商、合做伙伴和提供商)使用。此洞察可用于针对客户提供产品营销信息。例如,借助从分析中获取的洞察,公司可使用客户偏好数据和位置感知,在客户通过通道或店铺时向他们提供个性化的营销信息。

该洞察可用于检测欺诈,实时拦截交易,并将它们与使用已存储在企业中的数据构建的视图进行关联。在欺诈性交易发生时,能够告知客户可能存在欺诈,以便及时采起更正操做。

此外,能够根据在数据改动层完成的分析来触发业务流程。能够启动自动化的步骤 — 例如,若是客户接受了一条可自动触发的营销信息,则须要建立一个新订单,若是客户报告了欺诈,那么能够触发对信用卡使用的阻止。

分析的输出也可由推荐引擎使用,该引擎可将客户与他们喜欢的产品相匹配。推荐引擎分析可用的信息,并提供个性化且实时的推荐。

使用层还为内部用户提供了理解、找到和导航企业内外的链锁信息的能力。对于内部使用者,为业务用户构建报告和仪表板的能力使得利益相关者可以制定精明的决策并设计恰当的战略。为了提升操做有效性,能够从数据中生成实时业务警告,并且能够监视操做性的关键绩效指标:

  • 交易拦截器— 此组件可实时拦截高容量交易,将它们转换为一种容易被分析层理解的实时格式,以便在传入数据上执行实时分析。事务拦截器应可以集成并处理来自各类来源的数据,好比传感器、智能仪表、麦克风、摄像头、GPS 设备、ATM 和图像扫描仪。可使用各类类型的适配器和 API 来链接到数据源。也可使用各类加速器来简化开发,好比实时优化和流分析,视频分析,银行、保险、零售、电信和公共运输领域的加速器,社交媒体分析,以及情绪分析。
  • 业务流程管理流程— 来自分析层的洞察可供业务流程执行语言 (BPEL) 流程、API 或其余业务流程使用,经过自动化上游和下游 IT 应用程序、人员和流程的功能,进一步获取业务价值。
  • 实时监视— 可使用从分析中得出的数据来生成实时警告。能够将警告发送给感兴趣的使用者和设备,好比智能电话和平板电脑。可使用从分析组件生成的数据洞察,定义并监视关键绩效指标,以便肯定操做有效性。实时数据可从各类来源以仪表板的形式向业务用户公开,以便监视系统的健康或度量营销活动的有效性。
  • 报告引擎— 生成与传统商业智能报告相似的报告的能力相当重要。用户可基于从分析层中获得的洞察,建立临时报告、计划的报告或自助查询和分析。
  • 推荐引擎— 基于来自分析层的分析结果,推荐引擎可向购物者提供实时的、相关的和个性化的推荐,提升电子商务交易中的转换率和每一个订单的平均价值。该引擎实时处理可用信息并动态地响应每一个用户,响应基于用户的实时活动、存储在 CRM 系统中的注册客户信息,以及非注册客户的社交概况。
  • 可视化和发现— 数据可跨企业内外的各类联邦的数据源进行导航。数据可能具备不一样的内容和格式,全部数据(结构化、半结构化和非结构化)可组合来进行可视化并提供给用户。此能力使得组织可以将其传统的企业内容(包含在企业内容管理系统和数据仓库中)与新的社交内容(例如 tweet 和博客文章)组合到单个用户界面中。
 

垂直层

影响逻辑层(大数据来源、数据改动和存储、分析和使用层)的全部组件的各方面都包含在垂直层中:

  • 信息集成
  • 大数据治理
  • 系统管理
  • 服务质量

信息集成

大数据应用程序从各类数据起源、提供程序和数据源获取数据,并存储在 HDFS、NoSQL 和 MongoDB 等数据存储系统中。这个垂直层可供各类组件使用(例如数据获取、数据整理、模型管理和交易拦截器),负责链接到各类数据源。集成将具备不一样特征(例如协议和链接性)的数据源的信息,须要高质量的链接器和适配器。可使用加速器链接到大多数已知和普遍使用的来源。这些加速器包括社交媒体适配器和天气数据适配器。各类组件还可使用这一层在大数据存储中存储信息,从大数据存储中检索信息,以便处理这些信息。大多数大数据存储都提供了服务和 API 来存储和检索该信息。

大数据治理

数据治理涉及到定义指南来帮助企业制定有关数据的正确决策。大数据治理有助于处理企业内或从外部来源传入的数据的复杂性、量和种类。在将数据传入企业进行处理、存储、分析和清除或归档时,须要强有力的指南和流程来监视、构建、存储和保护数据。

除了正常的数据治理考虑因素以外,大数据治理还包含其余因素:

  • 管理各类格式的大量数据。
  • 持续培训和管理必要的统计模型,以便对非结构化数据和分析进行预处理。请记住,设置处理非结构化数据时的重要一步。
  • 为外部数据设置有关其保留和使用的策略和合规性制度。
  • 定义数据归档和清除策略。
  • 建立如何跨各类系统复制数据的策略。
  • 设置数据加密策略。

服务质量层

此层复杂定义数据质量、围绕隐私和安全性的策略、数据频率、每次抓取的数据大小和数据过滤器:

  • 数据质量
    • 完整地识别全部必要的数据元素
    • 以可接受的新鲜度提供数据的时间轴
    • 依照数据准确性规则来验证数据的准确性
    • 采用一种通用语言(数据元组知足使用简单业务语言所表达的需求)
    • 依据数据一致性规则验证来自多个系统的数据一致性
    • 在知足数据规范和信息架构指南基础上的技术符合性
  • 围绕隐私和安全的策略
    须要策略来保护敏感数据。从外部机构和提供程序获取的数据可能包含敏感数据(好比 Facebook 用户的联系信息或产品订价信息)。数据能够来源于不一样的地区和国家,但必须进行相应的处理。必须制定有关数据屏蔽和这类数据的存储的决策。考虑如下数据访问策略:
    • 数据可用性
    • 数据关键性
    • 数据真实性
    • 数据共享和发布
    • 数据存储和保留,包括可否存储外部数据等问题。若是可以存储数据,数据可存储多长时间?可存储何种类型的数据?
    • 数据提供程序约束(政策、技术和地区)
    • 社交媒体使用条款(参见 参考资料
  • 数据频率
    提供新鲜数据的频率是多少?它是按需、连续仍是离线的?
  • 抓取的数据大小
    此属性有助于定义可抓取的数据以及每次抓取后可以使用的数据大小。
  • 过滤器
    标准过滤器会删除不想要的数据和数据中的干扰数据,仅留下分析所需的数据。

系统管理

系统管理对大数据相当重要,由于它涉及到跨企业集群和边界的许多系统。对整个大数据生态系统的健康的监视包括:

  • 管理系统日志、虚拟机、应用程序和其余设备
  • 关联各类日志,帮助调查和监视具体情形
  • 监视实时警告和通知
  • 使用显示各类参数的实时仪表板
  • 引用有关系统的报告和详细分析
  • 设定和遵照服务水平协议
  • 管理存储和容量
  • 归档和管理归档检索
  • 执行系统恢复、集群管理和网络管理
  • 策略管理
 

结束语

对开发人员而言,层提供了一种对大数据解决方案必须执行的功能进行分类的途径,为组织建议必需执行这些功能所需的代码。可是,对于想要从大数据获取洞察的业务用户,考虑大数据需求和范围一般会有所帮助。原子模式解决了访问、处理、存储和使用大数据的机制,为业务用户提供了一种解决需求和范围的途径。下一篇文章将介绍用于此用途的原子模式。

第 4 部分: 了解用于大数据解决方案的原子模式和复合模式

简介

本系列的 第 3 部分 介绍了大数据解决方案的逻辑层。这些层定义了各类组件,并对它们进行分类,这些组件必须处理某个给定业务用例的功能性和非功能性需求。本文基于层和组件的概念,介绍了解决方案中所用的典型原子模式和复合模式。经过将所提出的解决方案映射到此处提供的模式,让用户了解须要如何设计组件,以及从功能角度考虑,应该将它们放置在何处。模式有助于定义大数据解决方案的架构。利用原子模式和复合模式能够帮助进一步完善大数据解决方案的每一个组件的角色和责任。

试用 IBM 大数据解决方案

下载试用版本的 IBM 大数据解决方案,看看它在您的环境中是如何工做的。选择如下几款产品:

本文介绍原子模式和复合模式。本系列的最后一篇文章将介绍解决方案模式。

图 1. 模式的类别

该图显示了一下模式:原子模式、复合模式和解决方案模式

 

原子模式

对于大数据上下文中常常出现的问题,原子模式 有助于识别数据如何是被使用、处理、存储和访问的。它们还有助于识别所需的组件。访问、存储和处理来自不一样数据源的多种数据须要不一样的方法。每种模式都用于知足特定的需求:例如,可视化、历史数据分析、社交媒体数据和非结构化数据的存储。能够将多种原子模式结合使用,组成一个复合模式。这些原子模式没有进行分层或排序。例如,可视化模式能够与社交媒体的数据访问模式直接交互,可视化模式还能够与高级分析处理模式进行交互。

图 2. 用于数据使用、处理、数据访问和存储的原子模式的示例

该图显示了每种原子模式下的样例模式的列表

数据使用模式

这种类型的模式处理使用数据分析结果的各类方式。本节包括的数据使用模式能够知足几个需求。

可视化模式

可视化数据的传统方式以图表、仪表板和摘要报告为基础。这些传统的方法并不老是用来可视化数据的最佳方式。

大数据可视化的典型需求(包括新出现的需求)以下所示:

  • 执行流数据的实时分析和显示
  • 基于上下文,以交互方式挖掘数据
  • 执行高级搜索,并得到建议
  • 并行可视化信息
  • 得到先进的硬件,支持将来的可视化需求

正在进行研究,以肯定人类和机器如何使用大数据洞察。这些挑战包括所涉及的数据量,而且须要将数据与上下文相关联。必须在适当的上下文中显示洞察。

可视化数据的目的是为了更容易、更直观地使用数据,所以报告和仪表板可能提供全高清的观看效果和 3-D 互动视频,而且能够为用户提供使用应用程序控制业务活动和结果的能力。

即席发现模式

建立知足全部业务需求的标准报告每每是不可行的,由于企业的业务数据查询会有不一样的需求。用户在查找特定信息时,可能须要得到根据问题的上下文执行即席查询的能力。

即席分析能够帮助数据科学家和关键业务用户了解业务数据的行为。即席处理中涉及的复杂性来自多种因素:

  • 多个数据源可用于相同的域。
  • 单一的查询能够有多个结果。
  • 输出能够是静态的,并具备多种格式(视频、音频、图形和文本)。
  • 输出能够是动态和交互式的。

增强传统的数据存储

在大数据的初步探索中,许多企业选择使用现有的分析平台来下降成本,并依赖于现有的技能。增强现有的数据存储有助于拓宽可用于现有分析的数据的范围,包括驻留在组织边界内外的数据,好比社交媒体数据,它能够丰富主数据。经过拓宽数据范围,使之包含现有存储中的新事实表、维度和主数据,并从社交媒体获取客户数据,组织能够得到更深刻的客户洞察。

但要牢记的是,新的数据集一般比较大,而现有的提取、转换和加载工具可能不足以处理它。您可能须要使用具备大规模并行处理能力的高级工具来解决数据的数量、多样性、真实性和速度特征。

通知模式

大数据洞察令人类、企业和机器能够经过使用事件通知而当即采起行动。通知平台必须可以处理及时发送出去的预计数量的通知。这些通知与大量邮件或群发短信不一样,由于内容通常是特定于使用者的。例如,推荐引擎能够提供有关世界各地的庞大客户群的洞察,并且能够将通知发送给这样的客户。

启动一个自动响应模式

从大数据得到的业务洞察,可用于触发或启动其余业务流程或事务。

处理模式

不管数据是处于静止状态仍是在运动中,均可以处理大数据。具体状况取决于分析的复杂性,有可能不须要对数据进行实时处理。这种模式解决了对大数据进行实时、近实时或批量处理的方式。

如下高级的大数据处理类别适用于大多数分析。这些类别一般也适用于基于 RDBMS 的传统系统。唯一的区别是庞大规模的数据、多样性和速度。在处理大数据时,要使用机器学习、复琐事件处理、事件流处理、决策管理和统计模型管理等技术。

历史数据分析模式

传统的历史数据分析仅限于预约义的数据时间段,这一般取决于数据保留策略。因为处理和存储的限制,超出此时间段的数据一般会被归档或清除。基于 Hadoop 的系统和其余等效的系统能够克服这些限制,由于它们具备丰富的存储以及分布式大规模并行处理能力。运营、业务和数据仓库的数据被移动到大数据存储,您经过使用大数据平台功能对它们进行处理。

历史分析包括分析给定时间段、季节组合和产品的历史趋势,并与最新的可用数据进行比较。为了可以存储和处理如此庞大的数据,您可使用 HDFS、NoSQL、SPSS® 和 InfoSphere® BigInsights™。

高级分析模式

大数据提供了不少实现创意洞察的机会。不一样的数据集能够在多种上下文中存在关联。发现这些关系须要创新的复杂算法和技术。

高级分析包括预测、决策、推理过程、模拟、上下文信息标识和实体解析。高级分析的应用包括生物统计数据分析(例如,DNA 分析)、空间分析、基于位置的分析、科学分析、研究,等等。高级分析要求大量的计算来管理大量的数据。

数据科学家能够指导您识别合适的技术、算法和数据集,以及在给定上下文中解决问题所需的数据源。好比 SPSS、InfoSphere Streams 和 InfoSphere BigInsights 等工具提供了这类功能。这些工具访问存储在大数据存储系统(好比 BigTable、HBase,等等)中的非结构化数据和结构化数据(例如,JSON 数据)。

预处理原始数据模式

大数据解决方案主要由基于 MapReduce 的 Hadoop 系统和技术组成,MapReduce 是开箱即用的分布式存储和处理解决方案。然而,从非结构化数据提取数据(例如,图像、音频、视频、二进制提要,甚至是文本)是一项复杂的任务,须要具备机器学习能力并掌握天然语言处理等技术。另外一个主要挑战是如何验证这些技术和算法的输出的准确度和正确性。

要对任何数据执行分析,数据都必须是某种结构化格式。从多个数据源访问的非结构化数据能够按原样存储,而后被转化成结构化数据(例如 JSON),并被再次存储到大数据存储系统中。非结构化文本能够转换成半结构化或结构化数据。一样,图像、音频和视频数据须要转换成可用于分析的格式。此外,使用预测和统计算法的高级分析的准确性和正确性取决于用来训练其模型的数据和算法的数量。

下面的列表显示了将非结构化数据转换成结构化数据所需的算法和活动:

  • 文档和文本分类
  • 特征提取
  • 图像和文本分割
  • 关联特征、变量和时间,而后提取包含时间的值
  • 输出的准确度检查使用了混淆矩阵(confusion matrix)等技术和其余手动活动

数据科学家能够帮助用户选择合适的技术和算法。

即席分析模式

处理大数据的即席查询所带来的挑战不一样于对结构化数据执行即席查询时所面临的挑战,因为数据源和数据格式不是固定的,因此须要使用不一样的机制来检索和处理数据。

虽然大数据供应商能够处理简单的即席查询,但在大多数状况下,查询是复杂的,由于必须在运行时动态地发现数据、算法、格式和实体解析。因此须要利用数据科学家和业务用户的专业知识来定义下列任务所需的分析:

  • 识别并发现计算和算法
  • 识别并发现数据源
  • 定义所需的能够由计算使用的格式
  • 对数据执行并行计算

访问模式

在大数据解决方案中,有许多数据源,还有不少访问数据的方式,本节将介绍最多见的几种。

Web 和社交媒体访问模式

Internet 是提供许多目前能够得到的洞察的数据源。在几乎全部分析中,都会用到 Web 和社交媒体,但得到这种数据须要不一样的访问机制。

在全部数据源中,由于 Web 和社交媒体的多样性、速度和数量,因此 Web 和社交媒体是最为复杂的。网站大约有 40-50 个类别,每个类别都须要使用不一样的方式来访问数据。本节将列出这些类别,并介绍一些访问机制。从大数据的角度讲,高级的类别是商业站点、社交媒体站点,以及具备特定和通用组件的站点。有关的访问机制见图 3。若是须要的话,在完成预处理后,可将所访问的数据存储在数据存储中。

图 3. Web 和社交媒体访问

该图显示了 Web 和社交媒体数据访问

须要执行如下步骤来访问 Web 媒体信息。

图 4. 大数据访问步骤

该图显示了大数据访问步骤

非结构化数据存储中的 Web 媒体访问
  1. 步骤 A-1. 爬网程序读取原始数据。
  2. 步骤 A-2. 数据被存储在非结构化存储中。
Web 媒体访问为结构化存储预处理数据
  1. 步骤 B-1. 爬网程序读取原始数据。
  2. 步骤 B-2. 对数据进行预处理。
  3. 步骤 B-3. 数据被存储在结构化存储中。
Web 媒体访问预处理非结构化数据
  1. 步骤 C-1. 在极少数状况下,来自供应商的数据能够是非结构化数据。
  2. 步骤 C-2. 对数据进行预处理。
  3. 步骤 C-3. 数据被存储在结构化存储中。
非结构化或结构化数据的 Web 媒体访问
  1. 步骤 D-1. 数据供应商提供结构化或非结构化数据。
  2. 步骤 D-2. 数据被存储在结构化或非结构化存储中。
Web 媒体访问预处理非结构化数据
  1. 步骤 E-1. 不能使用在存储时未通过预处理的非结构化数据,除非它是结构化格式的数据。
  2. 步骤 E-2. 对数据进行预处理。
  3. 步骤 E-3. 通过预处理的结构化数据被存储在结构化存储中。

如图所示,数据能够直接存储在存储器中,或者能够对它们进行预处理,并将它们转换成一个中间格式或标准格式,而后再存储它们。

在能够分析数据以前,数据格式必须可用于实体解析或用于查询所需数据。这种通过预处理的数据能够存储在一个存储系统中。

虽然预处理一般被认为是微不足道的,但这项处理可能很是复杂和耗时。

设备生成的数据模式

设备生成的内容包括来自传感器的数据数据是从天气信息、电气仪表和污染数据等数据来源检测到的,而且由传感器捕获。这些数据能够是照片、视频、文本和其余二进制格式。

下图说明了处理机器生成的数据的典型过程。

图 5. 设备生成的数据访问

该图显示了设备生产的数据已被处理

图 5 说明了访问来自传感器的数据的过程。由传感器捕获的数据能够发送到设备网关,设备网关会对数据执行一些初始预处理,并缓冲高速数据。机器生成的数据大多为二进制格式(音频、视频和传感器读数)或文本格式。这样的数据最初能够存储在存储系统中,也能够对它们进行预处理,而后再存储它们。对于分析来讲,要求执行预处理。

事务、运营和仓库数据模式

能够存储现有的事务、运营和仓库数据,避免清除或归档数据(由于存储和处理的限制),或减小在数据被其余使用者访问时对传统存储的负载。

对于大多数企业而言,事务、运营、主数据和仓库信息都是全部分析的核心。若是用在 Internet 上,或者经过传感器和智能设备提供的非结构化数据以及外部数据来加强此数据,那么能够帮助组织得到准确的洞察,并执行高级分析。

使用由多个数据库厂商提供的标准链接器,事务和仓库数据能够被推入存储。预处理事务性数据要容易得多,由于数据大可能是结构化的。可使用简单的提取、转换和加载流程将事务数据移动到存储中。事务数据能够很容易地转换成 JSON 和 CSV 等格式。使用 Sqoop 等工具能够更容易将事务数据推入存储系统,如 HBase 和 HDFS。

数据访问模式的特殊变化:生物特征数据访问

此信息的数据访问与对机器生成的数据的访问很是类似。生物特征数据被归类为生理和行为数据,能够经过许多方式对大量数据进行分析。

有些数据可经过传感器来获取,有些数据则须要身体样品(血液、尿液等)。处理生物特征数据(如 DNA 数据)须要更长的时间。

生理数据包括指纹、掌纹、气味和香味的信息,以及面部、声音、视网膜和虹膜特征。行为数据包括打字模式、打字节奏、说话、走路、签名匹配和步态。

存储模式

存储模式有助于肯定适当的存储各类数据的类型和格式。数据能够按原样存储,根据键值对存储,或者以预约义的格式存储。

分布式文件系统(如 GFS 和 HDFS)都可以存储任何类型的数据。可是,高效地检索或查询数据的能力会影响性能。技术的选择很重要。

分布式非结构化数据的存储模式

大部分大数据是非结构化数据,并且能够经过不一样的方式针对不一样的上下文提取它所拥有的信息。大多数时候,非结构化数据必须按原样并以其原始格式进行存储。

这样的数据能够存储在分布式文件系统(如 HDFS)和 NoSQL 文档存储(如 MongoDB)中。这些系统提供了检索非结构化数据的有效方法。

分布式结构化数据的存储模式

结构化数据包括从数据源到达的已是结构化格式的数据,以及通过预处理,被转换为 JSON 数据等格式的非结构化数据。必须存储已通过转换的数据,避免从原始数据到结构化数据的频繁数据转换。

可使用 Google 的 BigTable 等技术来存储结构化数据。BigTable 是一个大规模容错式自我管理系统,包括 TB 级的内存和 PB 级的存储。

Hadoop 中的 HBase 可媲美 BigTable。它使用了 HDFS 做为底层存储。

传统数据存储的存储模式

对于存储大数据而言,传统的数据存储并非最佳选择,但在企业执行初步数据探索的状况下,企业可能会选择使用现有的数据仓库、RDBMS 系统和其余内容存储。这些现有的存​​储系统可用来存储使用大数据平台消化和过滤的数据。不要认为传统的数据存储系统适用于大数据。

云存储的存储模式

许多云计算基础架构供应商都有分布式结构化、非结构化的存储能力。从传统的配置、维护、系统管理、编程和建模角度讲,大数据技术有点不一样。此外,实现大数据解决方案所需的技能既罕见又昂贵。探索大数据技术的企业可使用云解决方案来提供大数据的存储、维护和系统管理。

要存储的数据每每是敏感数据,这些数据包括医疗记录和生物特征数据。您须要考虑数据安全性、数据共享、数据治理,以及有关数据的其余政策,在考虑将云做为大数据存储库的时候尤为如此。传输大量数据的能力也是云存储的另外一个重要考虑因素。

 

复合模式

原子模式 侧重于提供执行各项功能所需的能力。可是,复合模式 是基于端到端的解决方案进行分类的。每一个复合模式都要考虑一个或多个维度。在将复合模式应用到每一个模式时,会有许多变化。能够将复合模式映射到一个或多个原子模式,以解决某个给定的业务问题。本文所述的复合模式列表是基于常常发生的典型业务问题,但这不是复合模式的完整列表。

存储和探索模式

若是业务问题须要存储大量新数据和现有数据,并且先前因为缺少足够的存储和分析能力而一直未使用这些数据,那么这种模式就很是有用。该模式旨在缓解对现有数据存储的负载。所存储的数据可用于初始勘探和即席发现。用户能够推演报告,经过进一步的处理来分析数据的质量和价值。您可使用 ETL 工具来预处理和净化原始数据,而后再进行任何类型的分析。

图 6. 存储和探索复合模式

该图显示了模式的维度包括仅存储、处理和使用

图 6 说明了这种模式的多个维度。数据的使用目的可能只是存储它,或处理和使用它。

仅存储的示例是,数据的获取和存储只是为了未来可以知足合规性或法律的要求。在处理和使用的状况下,分析的结果能够被处理和使用。能够从最近发现的来源或从现有的数据存储访问数据。

专用和可预测的分析复合模式

使用此模式的状况是,使用多种处理技术执行分析,所以,能够用新洞察丰富现有数据,或建立可由各类用户使用的输出。该分析能够在事件发生的同时实时发生,或使用批量模式,根据收集到的数据得到洞察。做为能够分析的静态数据的示例,某电信公司可能构建客户流失模型,包括分析呼叫数据记录、社交数据和事务数据。做为分析运动数据的示例,预测某个给定事务正在经历欺诈的需求必须实时或近实时地发生。

图 7. 专用和预测分析复合模式

该图显示了专用和预测分析复合模式

图 7 说明了这种模式的多个维度。所执行的处理能够是标准的或预测性的,而且能够包括决策。

此外,能够将通知发送给与特定任务或消息有关的系统或用户。该通知可使用可视化功能。该处理可实时发生或以批量模式发生。

可操做的分析模式

大数据解决方案的最高级形式是,对数据集执行分析,而且基于可重复的过去的行动或行动矩阵来暗示行动。该操做能够是手动、半自动或全自动的。基础分析须要高度准确。行动是预约义的,分析的结果被映射到行动。可操做分析中所涉及的典型步骤是:

  • 分析数据以得到洞察。
  • 制定决策。
  • 激活相应的渠道,对正确的使用者采起行动。
图 8. 可操做的分析复合模式

该图显示了可操做的分析复合模式

图 8 说明该分析能够是手动、半自动或全自动的。如图中的说明所示,它使用了原子模式。

手动操做 意味着系统基于分析的结果来提供建议操做,并由人类决定和执行操做。半自动 意味着,分析建议操做,但不须要经过人类干预来启动操做,或从一组建议的操做中进行选择。全自动 表示在决策以后,系统当即执行操做。例如,在设备被预测会发生故障以后,系统能够自动建立一个工做订单。

下面的矩阵显示了如何将原子模式映射到复合模式,复合模式是原子模式的组合。每一个复合模式都被设计为针对具备一组特定特征的数据在特定状况下使用。矩阵显示了模式的典型组合。必须对模式进行调整,以知足特定的状况和需求。在矩阵中,按照从最简单到最复杂的顺序列出了复合模式。“store and explore(存储和探索)”模式是最简单的。

图 9. 复合模式对原子模式的映射

该图显示了复合模式对原子模式的映射

 

结束语

采用基于模式的方法能够帮助业务团队和技术团队在解决方案的首要目标上达成一致意见。技术团队可使用模式定义架构性原则,并制定一些关键架构决策。技术团队能够将这些模式应用到架构层,并导出实现解决方案所需的组件集。一般状况下,解决方案从有限的范围开始,而后企业会变得愈来愈有信心,相信解决方案会带来价值。随着演变的发生,与解决方案一致的复合模式与原子模式将会获得细化。在初始阶段,可使用模式来定义一个基于模式的架构,并映射出在该架构中如何逐步设计组件。

图 10. 将原子模式映射到架构层

该图显示了原子模式对架构层的映射

在本系列的 第 2 部分 中,咱们描述了与大数据有关的复杂性,以及如何肯定是否应实现或更新您的大数据解决方案。在本文中,咱们讨论了原子模式和复合模式,并解释了一个解决方案能够由多种模式组成。给定一个特定的上下文,您可能会发现某些模式是比其余模式更合适。咱们建议您采用端到端的解决方案视图,并考虑所涉及的模式,而后定义大数据解决方案的架构。

对于架构师和设计师,映射到模式能够支持对架构中各组件的责任进一步细化。对于业务用户而言,它一般有助于更好地理解大数据问题的业务范围,从而得到有价值的洞察,让解决方案知足所指望的结果。

此外,解决方案模式有助于定义最优的组件集,根据业务问题是否须要使用数据发现和探索功能、专用和可预测的分析或者可操做的分析。请记住,在实现一个解决方案时,并无建议的原子、复合或解决方案模式的顺序或次序。在本系列的下一篇文章中,将针对此用途介绍解决方案模式。

第 5 部分: 对大数据问题应用解决方案模式并选择实现它的产品

简介

本系列的 第 3 部分 描述了针对最多见的、常常发生的大数据问题及其解决方案的原子模式和复合模式。本文将推荐能够用于架构大数据解决方案的三个解决方案模式。每一个解决方案模式都使用了一个复合模式,该模式由逻辑组件构成(参见第 3 部分的介绍)。在本文末尾处,列出了产品和工具清单,它们可映射到每个解决方案模式的组件。

 

解决方案模式

如下各节将介绍能够用于架构大数据解决方案的三个解决方案模式。为了说明这些模式,咱们将它们应用到特定的用例(例如,如何检测医疗保险欺诈),但这些模式能够用于解决其余许多业务场景。每一个解决方案模式都利用了一个复合模式的优点。在下表中,列出了本文介绍的解决方案模式,以及做为其基础的复合模式。

表 1. 每一个解决方案模式所使用的复合模式
解决方案模式 复合模式
入门 存储和探索
得到高级业务洞察 专用和预测分析
采起下一个最佳行动 可操做的分析
 

用例描述:保险欺诈

财务欺诈对金融业的全部领域都带来了巨大的风险。在美国,保险公司每一年要损失数十亿美圆。在印度,仅仅是 2011 年的亏损总额就达到 3000 亿印度卢比。除了经济损失,保险公司还会失去一些业务,由于客户感到不满意。虽然许多保险监管机构已经定义了框架和流程来控制欺诈行为,但他们每每只是对欺诈作出反应,而不是采起主动措施来预防它们。传统的方法(如循环列入黑名单的客户、保险代理人和员工)并不能解决欺诈问题。

本文为大数据解决方案提出了一种解决方案模式,以本系列的第 3 部分中介绍的逻辑架构以及 第 4 部分 中介绍的复合模式为基础。

保险欺诈是为了让作出欺诈的当事人或其余关联方得到不正当或非法的好处的行为或疏忽。欺诈行为的种类包括:

  • 保单持有人欺诈和索赔欺诈— 在购买和执行保险产品时对保险公司的欺诈包括提出保险索赔时的欺诈。
  • 中介欺诈— 保险代理人、企业代理、中介或第三方代理人对保险公司或者保单持有人所作的欺诈。
  • 内部欺诈— 保险公司的董事、经理,或其余任何人员或办公室成员对保险公司所作的欺诈。

目前的欺诈检测流程

保险监管委员会已经创建了反欺诈政策,其中包括明肯定义的欺诈行为监控流程、搜索潜在的欺诈指标(并发布列表)的流程,以及与执法部门协调的流程。保险公司配置了专门分析欺诈索赔的工做人员。

目前的欺诈检测流程的问题

保险监管机构已明肯定义了欺诈检测和缓解的流程。传统的解决方案使用的模型基于历史欺诈数据、被列入黑名单的客户和保险代理人,以及有关特定于领域的欺诈的数据。可用于检测欺诈的数据被局制于给定保险公司的 IT 系统和一些外部源。

目前的欺诈检测流程大可能是手工的,只能处理有限的数据集。保险公司可能没法调查全部指标。一般很迟才检测到欺诈,并且保险公司很难对每一个欺诈案例都进行适当的跟进。

目前的欺诈检测依赖于对现有欺诈案件的已知状况,因此每一种新型诈骗发生时,保险公司都不得不承担第一次的损失。最传统的方法在一个特定的数据源内工做,没法容纳不断增加的各类不一样来源的数据。大数据解决方案能够帮助解决这些挑战,并在保险公司的欺诈检测中发挥重要做用。

 

解决方案模式:入门

该解决方案模式基于存储和探索复合模式。它集中处理数据的得到并存储来自企业内部或外部的不一样来源的相关数据。在图 1 所示的数据源只是一个示例;领域专家能够识别适当的数据源。

由于必须收集、存储和处理来自多个来源的大量不一样数据,此业务挑战是大数据解决方案的良好候选场景。

下图显示了解决方案模式,它映射到了在 第 3 部分 中介绍过的逻辑架构。

图 1. 入门解决方案模式

该图显示了逻辑层图,此图显示了入门解决方案模式

点击查看大图

图 1 使用如下数据提供者:

  • 外部数据源
  • 结构化数据存储
  • 通过转换的结构化数据
  • 实体解析
  • 大数据浏览器组件

医疗保健欺诈检测所需的数据能够从不一样的数据源和系统中得到,好比银行、医疗机构、社交媒体和 Internet 机构。这些数据包括来自博客、社交媒体、新闻机构、各机构的报告,以及 X 光报告等来源的非结构化数据。更多示例请参见图 1 中的数据源层。利用大数据分析,这些不一样来源的信息可相互关联和组合,而且被分析(在已定义规则的帮助下),以肯定欺诈的可能性。

在这种模式中,所需的外部数据是从数据供应者那里得到的,他们贡献通过预处理的非结构化数据,这些数据已被转化为结构化或半结构化数据。在通过初始预处理后,这些数据被存储在大数据存储中。下一步是找出可能的实体,并从数据生成即席报告。

实体识别是在数据中识别命名元素的任务。识别分析所需的全部实体必须都被识别出来,包括那些与其余实体没有关系的松散实体。实体识别主要由数据科学家和业务分析师执行。实体解析能够像根据数据关系和上下文识别单一实体或复杂实体同样简单。此模式使用了简单形式的实体解析组件。

您能够简单地将结构化数据转换成最适合于分析的格式,并直接存储在大数据结构化存储中。

能够在此数据上执行即席查询,以得到相关信息:

  • 给定的客户、区域、保险产品、代理或审批人员在给按期间内的总体欺诈风险
  • 某些代理或审批人员,或跨保险公司的客户过往的索赔检查

顾名思义,组织通常采用这种模式开始使用大数据。组织采用探索式方法,根据可用的数据评估能够生成什么样的洞察。在这个阶段,组织通常不会对高级分析技术进行投资,好比机器学习、特征提取和文本分析。

 

解决方案模式:得到高级业务洞察

这种模式比入门模式更高级。它在索赔处理的三个阶段预测欺诈:

  1. 索赔已经解决。
  2. 索赔处理正在进行中。
  3. 刚刚收到索赔请求。

对于前两种状况,能够批量处理索赔,并且能够启动欺诈检测流程,它多是常规报告流程的一部分,也能够由业务请求启动。第 3 种状况能够近实时地进行处理。索赔请求拦截器会拦截索赔请求,启动欺诈检测流程(若是指示器报告这多是一个欺诈案件),而后通知在系统中识别的利益相关者。越早检测到欺诈,风险或损失的严重性就会越低。

图 2. 得到高级业务洞察的解决方案模式

逻辑层图显示了用于得到高级业务洞察的解决方案模式

点击查看大图

图 2 使用:

  • 非结构化数据存储
  • 结构化数据存储
  • 通过转换的结构化数据
  • 通过预处理的非结构化数据
  • 实体解析
  • 欺诈检测引擎
  • 业务规则
  • 大数据浏览器
  • 对用户的警告和通知
  • 索赔请求拦截器

在这个模式中,组织能够在分析以前选择对非结构化数据进行预处理。

数据被获取并按原样存储在非结构化数据存储中。而后,它被预处理成能够被分析层使用的格式。有时,预处理可能会很是复杂和费时。您可使用机器学习技术进行文本分析,Hadoop Image Processing Framework 对于处理图像颇有用。最广​​泛使用的技术是 JSON。通过预处理的数据随后被存储在结构化数据存储中,如 HBase。

此模式的核心组件是欺诈检测引擎,由高级分析功能构成,能够帮助预测欺诈。被明肯定义并常常更新的欺诈指标有助于识别欺诈行为。下面欺诈指标能够帮助检测欺诈,而且可使用技术来实现打击欺诈行为的系统。下面是常见欺诈指标的列表:

  • 保单生效后不久进行索赔。
  • 在处理索赔时发生严重核保失误。
  • 被保险人在追求快速解决时具备明显的攻击性。
  • 被保险人愿意接受小额赔偿,而不是记录全部损失。
  • 文件的真实性值得怀疑。
  • 被保险人在背后偿还贷款。
  • 所产生的伤害是不可见的。
  • 不存在已知伤亡的高价值索赔。
  • 我的集群之间存在关系,包括保单持有人、医疗机构、联营公司、供应商与合做伙伴。
  • 持牌及非持牌医疗服务提供者之间存在联系。

仅使用传统方法不足以预测诈骗。用户还须要使用社交网络分析来检测持牌及非持牌医疗服务提供者之间的联系,并检测保单持有人、医疗机构、联营公司、供应商与合做伙伴之间的关系。验证文件的真伪,并找到我的的信用评分,这是用传统方法难以完成的艰巨任务。

在分析过程当中,对全部这些指标的搜索可能会在庞大数量的数据上同时发生。每个指标都被加权。全部指标的加权总值表示预测欺诈的准确性和严重程度。

在分析完成后,能够向相关利益方发送警报和通知,而且能够生成报表,以显示分析结果。

此模式适合于须要使用大数据进行高级分析的企业,包括进行复杂的预处理,以利用先进的技术(如特征提取、实体解析、文本分析、机器学习和预测分析)能够进行分析的形式存储数据。这种模式不涉及采起任何行动或根据分析的输出提供建议。

 

解决方案模式:采起下一个最佳行动

在关于得到高级业务洞察的解决方案模式中所作的欺诈预测一般致使应采起特定行动,例如拒绝索赔,或暂缓赔偿,直至收到进一步的澄清和信息,或报告它,以采起法律行动。在这种模式中,为预测的每一个结果定义了行动。这个行动对结果(action-to-outcome)的表被称为行动决策矩阵

图 3. 下一个最佳行动的解决方案模式

逻辑层图显示了用于得到下一个最佳行动的解决方案模式

点击查看大图

图 3 使用:

  • 非结构化数据存储
  • 结构化数据存储
  • 通过转换的结构化数据
  • 通过预处理的非结构化数据
  • 实体解析
  • 欺诈检测引擎
  • 业务规则
  • 决策矩阵
  • 数据探索工具
  • 对用户的警告和通知
  • 索赔请求拦截器
  • 对其余系统和业务流程组件的变动和通知

一般能够采起 3 种行动:

  • 能够向利益相关者发送通知,以采起必要的行动,例如,通知用户采起针对申索人的法律行动。
  • 系统在采起进一步行动以前通知用户,并等待用户的反馈。系统能够等待用户响应任务,也能够中止或暂缓索赔处理事务。
  • 对于不须要人工干预的场景,系统能够采起自动行动。例如,系统能够向流程发送一个触发器,以中止理赔程序,并将有关申索人、代理人和审批人的信息通知给法律部门。

此模式适合于须要使用大数据进行高级分析的企业。此模式使用高级功能来检测欺诈行为,通知并提醒相关利益方,启动自动工做流,根据处理的结果采起行动。

 

造成大数据解决方案骨干的产品和技术

下图显示了大数据软件如何映射到第 3 部分中所描述的逻辑架构的各个组件。这些产品、技术或解决方案能够在大数据解决方案中使用;必须根据您本身的需求和环境来决定选择用于部署的工具。

图 4 显示了大数据设备,如 IBM PureData™ System for Hadoop 和 IBM PureData System for Analytics,它们跨越多个层次。这些设备具备内置的可视化、内置的分析加速器,以及单一系统控制台等特性。使用设备有不少优势。(请参阅 参考资料,了解有关 IBM PureData System for Hadoop 的更多信息。)

图 4. 映射到逻辑层次图的产品和技术

逻辑层图显示了一些产品

点击查看大图

 

在欺诈检测中使用大数据分析的好处

与传统方法相比,使用大数据分析来检测欺诈具备多种优点。保险公司能够构建包含全部相关数据源的系统。一个一应俱全的系统有助于检测不常见的欺诈案件。预测模型等技术能够深刻分析欺诈实例,筛选明显的案例,并参照低发欺诈案件执行进一步分析。

大数据解决方案还能够帮助创建整个企业的反欺诈工做的全局视角。经过连接组织内的关联信息,全局视角每每致使更好的欺诈检测。欺诈行为能够在多个起源点发生:理赔、保险退保、缴费、申请新的保单,或者与员工相关的欺诈或第三方欺诈。各类来源的数据相结合能够实现更好的预测。

分析技术使组织可以从非结构化数据中提取重要信息。虽然大量结构化信息存储在数据仓库中,大多数关于欺诈的关键信息都是非结构化数据,好比第三方报告,它们不多被分析。在大多数保险机构中,社交媒体数据没有被正确地存储或分析。

 

结束语

利用基于保险行业中的识别欺诈用例的业务场景,本文介绍了复杂性各不相同的几种解决方案模式。最简单的模式解决来自不一样来源的数据的存储,并执行一些初步的探索。最复杂的模式涵盖如何从数据中得到洞察,并根据分析采起行动。

每个业务场景都被映射到组成解决方案模式的相应原子模式和复合模式。架构师和设计师能够应用解决方案模式来定义高级的解决方案,以及相应的大数据解决方案的功能组件。

相关文章
相关标签/搜索