Apache Hadoop和Apache Spark算法
接下来谈多核机器、 PB级数据和任务,这跟全部从twitter提到的Java或重载机器学习算法相似。谈到Hadoop,不得不说这个应用普遍的框架及它的组 件:Hadoop分布式文件系统(HDFS)、资源管理平台(YARN)、数据处理模块(MapReduce)和其余所需的类库和工具(Common)。 在这些组件上层还有一些其余很受欢迎的可选工具,好比运行在HDFS上的数据库(HBase)、查询语言平台(Pig)和数据仓库基础结构(Hive)。数据库
Apache Spark 做为一种新数据处理模块,之内存性能和快速执行的弹性分布式数据集(RDDs)而出名,不一样于不能高效使用内存和磁盘的Hadoop MapReduce。Databricks公布的最新标准显示当用少于10倍节点的时候,对1PB数据的排序Spark比Hadoop快三倍。框架
典型的Hadoop用例在于查询数据,而Spark正以其快速的机器学习算法愈来愈出名。但这只是冰山一角,Databricks如是说:“Spark 使应用程序在Hadoop集群中运行在内存中快100倍,当运行在磁盘中时甚至快10倍”。机器学习
小结:Spark是在Hadoop生态系统中的后起之秀,有一个常见的误解是咱们如今常常谈它一些不合做或竞争的事情,可是我认为咱们在这正在看到这个框架的发展。分布式