为何咱们选择parquet

为何咱们选择parquet 前用的hadoop,一直有个疑惑。当时没有细究,昨天忽然想到,就又顺着看了下,通过调整,原来在presto中要用1分钟的,如今基本能够秒级别出结果,和presto无关,和文件存储格式有关,hdfs默认存的是文本格式,因此hive,presto,都是在文本格式上作计算,hadoop自己是全表扫,只是分布式而以,因此咱们以前用的就是分布式的全表扫而以,没有发挥出数据仓库该有
相关文章
相关标签/搜索