Hive文件存储格式 :Parquet sparksql ,impala的杀手锏

hive表的源文件存储格式有几类: 一、TEXTFILE 默认格式,建表时不指定默认为这个格式,存储方式:行存储 导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件能够直接经过hadoop fs -cat 查看 磁盘开销大 数据解析开销大,压缩的text文件 hive没法进行合并和拆分 二、SEQUENCEFILE 一种Hadoop API提供的二进制文件,使用方便、可分割、
相关文章
相关标签/搜索