数据仓库工具之hive介绍

Hive是基于hadoop的一个数据仓库工具,能够将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本质是将SQL转换为MapReduce程序。python hive的主要用途:用来作离线数据分析,比直接用MapReduce程序开发效率更高。mysql 直接使用MapReduce所面临的问题: 人员学习成本过高:使用mr直接分析数据的前提是须要开发复杂的mapreduce程序,这对于数
相关文章
相关标签/搜索