分析挖掘（大数据）：hive、impala、 Spark MLlib概述、原理

时间 2019-12-07

标签分析挖掘数据 hive impala spark mllib 概述原理栏目大数据繁體版

原文原文链接

hive Hive是一个构建于Hadoop顶层的数据仓库工具，支持大规模数据存储、分析，具备良好的可扩展性。某种程度上能够看做是用户编程接口，自己不存储和处理数据。依赖分布式文件系统HDFS存储数据，依赖分布式并行计算模型MapReduce处理数据。算法定义了简单的相似SQL 的查询语言——HiveQL，用户能够经过编写的HiveQL语句运行MapReduce任务，能够很容易把原来构建在关系数据

>>阅读原文<<