HIVE的数据存储

首先,Hive 没有专门的数据存储格式,也没有为数据创建索引,用户能够很是自由的组织 Hive 中的表,只须要在建立表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就能够解析数据。
其次,Hive 中全部的数据都存储在 HDFS 中,Hive 中包含如下数据模型:Table,External Table,Partition,Bucket。数据库

1. Hive 中的 Table 和数据库中的 Table 在概念上是相似的,每个 Table 在 Hive 中都有一个相应的目录存储数据。例如,一个表 xiaojun,它在 HDFS 中的路径为:/ warehouse /xiaojun,其中,wh 是在 hive-site.xml 中由 ${hive.metastore.warehouse.dir} 指定的数据仓库的目录,全部的 Table 数据(不包括 External Table)都保存在这个目录中。微信

2. Partition 对应于数据库中的 Partition 列的密集索引,可是 Hive 中 Partition 的组织方式和数据库中的很不相同。在 Hive 中,表中的一个 Partition 对应于表下的一个目录,全部的 Partition 的数据都存储在对应的目录中。例如:xiaojun 表中包含 dt 和 city 两个 Partition,则对应于 dt = 20100801, ctry = US 的 HDFS 子目录为:/ warehouse /xiaojun/dt=20100801/ctry=US;对应于 dt = 20100801, ctry = CA 的 HDFS 子目录为;/ warehouse /xiaojun/dt=20100801/ctry=CA网站

3. Buckets 对指定列计算 hash,根据 hash 值切分数据,目的是为了并行,每个 Bucket 对应一个文件。将 user 列分散至 32 个 bucket,首先对 user 列的值计算 hash,对应 hash 值为 0 的 HDFS 目录为:/ warehouse /xiaojun/dt =20100801/ctry=US/part-00000;hash 值为 20 的 HDFS 目录为:/ warehouse /xiaojun/dt =20100801/ctry=US/part-00020code

4. External Table 指向已经在 HDFS 中存在的数据,能够建立 Partition。它和 Table 在元数据的组织上是相同的,而实际数据的存储则有较大的差别。视频

• Table 的建立过程和数据加载过程(这两个过程能够在同一个语句中完成),在加载数据的过程当中,实际数据会被移动到数据仓库目录中;以后对数据对访问将会直接在数据仓库目录中完成。删除表时,表中的数据和元数据将会被同时删除。xml

• External Table 只有一个过程,加载数据和建立表同时完成(CREATE EXTERNAL TABLE ……LOCATION),实际数据是存储在 LOCATION 后面指定的 HDFS 路径中,并不会移动到数据仓库目录中。当删除一个 External Table 时,仅删除索引

 

免费观看超人学院公开课视频:                                                           关注超人学院微信号:ci

1qq                                                         qrcode_for_gh_e0de76d13857_258

 

了解更多详情请登陆超人学院网站http://www.crxy.cn?sxyget

相关文章
相关标签/搜索