分析挖掘(大数据):hive、impala、 Spark MLlib概述、原理

hive Hive是一个构建于Hadoop顶层的数据仓库工具,支持大规模数据存储、分析,具备良好的可扩展性。某种程度上能够看做是用户编程接口,自己不存储和处理数据。依赖分布式文件系统HDFS存储数据,依赖分布式并行计算模型MapReduce处理数据。算法 定义了简单的相似SQL 的查询语言——HiveQL,用户能够经过编写的HiveQL语句运行MapReduce任务,能够很容易把原来构建在关系数据
相关文章
相关标签/搜索