张小龙谈“大数据五种开源处理技术”


概述javascript


如今市场上有超过25万个开源技术出现了。如何选择?让咱们一块儿看下5种激动人心的大数据技术java


Storm Kafka是将来数据流处理的主要方式,它们已经在一些大公司中使用了,包括 Groupon,阿里巴巴和The Weather Channel等。程序员


Storm,诞生于Twitter,是一个分布式实时计算系统。Storm 设计用于处理实时计算,Hadoop主要用于处理批处理运算数据库


kafka是由LinkedIn研发的一款消息系统,做为一个数据处理的管道基础部分存在于系统中。当你一块儿使用它们,你就能实时地和线性递增的获取数据。编程


一、Storm\Kafka数组


使用Storm和Kafka,使得数据流处理线性的,确保每条消息获取都是实时的,可靠的。先后布置的Storm和Kafka能每秒流畅的处理10000条数据。像Storm和Kafka这样的数据流处理方案使得不少企业引发关注并想达到优秀的ETL(抽取转换装载)的数据集成方案。Storm 和 Kafka 也很擅长内存分析实时计算支持。企业使用批量处理的Hadoop方案没法也难对实现实时的业务需求。网络


在企业的大数据解决方案中实时数据流处理是必须的,由于它很优美的处理了“3v”–volume,velocity 和 variety (容量,速率和多样性)。框架


Drill和Dremel 实现了快速低负载的大规模,即时查询数据搜索。它们提供了秒级搜索P级别数据的可能,来应对即席查询和预测,及提供强大的虚拟化支持编程语言


Drill和Dremel提供强大的业务处理能力,不只仅只是为数据工程师提供。业务端的你们都将喜欢DrillDremel。Drill 是Google的Dremel的开源版本。Dremel是Google提供的支持大数据查询的技术。分布式



Hadoop生态圈使得MapReduce做为一个很亲切有利的工具应用于广告分析。从SawzallPigHive,不少接口层应用的创建使得Hadoop更为友好,更接近业务,可是,像SQL体系,这些抽象层忽略一个重要的事实–MapReduce(或Hadoop)是为了系统化数据处理流程而存在的。


在堆对比的工做流基础的方法论中,不少业务驱动的BI和分析查询都是很基本的和临时交互的,低延时分析。一些数据科学家早已经推测Drill和Dremel将优于Hadoop。在Infochimps咱们喜欢使用Elasticsearch全文索引引擎来实现数据库的数据搜索,可是真的在大数据处理中咱们认为Drill将成为主流。


二、R


R是开源的强大的统计编程语言。自1997年以来,超过200万的统计分析师使用R。这是一门诞生自贝尔实验室的在统计计算领域的现代版的S语言并迅速地成为了新的标准的统计语言。R使得复杂的数据科学变得更廉价。R是SASSPASS的重要的领头者,并做为最优秀的统计师的重要工具。


由于它有一个非凡强大的社区在支持着,你能够找到全部的R的类库,建立虚拟的各种型的科学数据而不用新写代码。R之因此使人兴奋是由于维护他的人和新的天天的创造。R社区是大数据领域使人兴奋的地方之一。R在大数据领域是一个超棒的不会过期的技术。


在最近的几个月里,几千个新特性被日益公开的知识基础为主的分析类型的分析师们介绍.并且,R和Hadoop协同的很好,做为一个大数据的处理的部分已经被证实了。


三、Jualia


Julia ,是一个有趣的R的替代者,由于它不喜欢R的死慢死慢的解释器。Julia的社区虽然不怎么强大如今,可是若是你不是当即使用它的话,仍是能够等等的。GremlinGiraph 帮助加强图形分析,并在图数据库像Neo4jInfiniteGraph中被使用,和与Hadoop协同工做的Giraph中被使用。


Golden Orb是另外一个高层面的流处理的图基础的项目的例子。能够看看。图数据库是富有魅力的边缘化的数据库。它们和关系型数据库相比,有着不少有趣的不一样点,这个是当你在开始的时候老是想用图理论而不是关系型理论。


另外一个相似的图基础的理论是Google的Pregel,相比来讲Gremlin和Giraph是其的开源替代。实际上,这些都是Google技术的山寨实现的例子。图在计算网络建模社会化网络方面发挥着重要做用,可以链接任意的数据。另一个常常的应用是映射地理信息计算。从A到B的地点,计算最短的距离。


图在生物计算物理计算领域也有普遍的应用,例如,他们能绘制不寻常的分子结构。海量的图,图数据库和分析语言框架都是一种现实世界上实现大数据中的一部分。图基础的理论是一个杀手级的应用,为何这么说?任何一个解决大型网络节点问题,都是经过节点和节点之间的路径来处理的。不少富有创造力的科学家和工程师们,都很明白的用正确的工具来解决对应的问题。


四、SAP hANA


SAP Hana 是一个全内存的分析平台,它包含了一个内存数据库和一些相关的工具软件用来建立分析流程和规范正确的格式来进行数据的输入输出。


Hana 假设其余的程序处理时候还不够快的解决遇到的问题,例如,金融建模决策支持网站个性化欺骗检测等等。Hana最大的缺点是”全内存“这意味着访问软状态的内存,这个是很明确的有点,可是这个也是相比磁盘存储来讲很昂贵的部分。据组织者说,不用担忧操做成本,Hana是快速的低延迟的大数据处理工具。


五、D3

D3是一个javascript面向文档的可视化的类库。它强大的创新性的让咱们能直接看到信息和让咱们进行正常的交互。它的做者是Michael Bostock一个纽约时报的图形界面设计师。例如,你可使用D3来从任意数量的数组中建立HTMl表格。你能使用任意的数据来建立交互进度条等。使用D3,程序员能之间建立界面,组织全部的各类类型的数据。



开始正式的使用Hadoop已经有近一年的时间的了,这期间从百度出来,到初见在到如今的BitWare,在不一样的公司,用不一样的技术解决问题。可是本质上遇到的问题老是那么几个,固然如今不少公司也开始尝鲜的使用Hadoop的了。这个是大环境是如此,能够理解。



Storm和Kafka 从11年起,就开始关注了,Storm在阿里也有部分二线应用,可是总体而言,刚刚满一岁的Storm在nathanmarz大侠的打磨下愈来愈稳定了,并有部分线上的应用了。因此对这个技术,整体而言,我我的仍是很看好的,由于如今使用hadoop没法实现实时的处理,使用HBase来为主要的数据库来使用了,暂时仍是能解决.

相关文章
相关标签/搜索