标签(空格分隔): 大数据平台构建html
- 一: 系统平台介绍
- 二: 安装kudu的集成
Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的新成员之一(incubating),专门为了对快速变化的数据进行快速的分析,填补了以往Hadoop存储层的空缺。 Hadoop生态系统有不少组件,每个组件有不一样的功能。在现实场景中,用户每每须要同时部署不少Hadoop工具来解决同一个问题,这种架构称为混合架构 (hybrid architecture)。好比,用户须要利用Hbase的快速插入、快读random access的特性来导入数据,HBase也容许用户对数据进行修改,HBase对于大量小规模查询也很是迅速。同时,用户使用HDFS/Parquet + Impala/Hive来对超大的数据集进行查询分析,对于这类场景, Parquet这种列式存储文件格式具备极大的优点。 不少公司都成功地部署了HDFS/Parquet + HBase混合架构,然而这种架构较为复杂,并且在维护上也十分困难。首先,用户用Flume或Kafka等数据Ingest工具将数据导入HBase,用户可能在HBase上对数据作一些修改。而后每隔一段时间(天天或每周)将数据从Hbase中导入到Parquet文件,做为一个新的partition放在HDFS上,最后使用Impala等计算引擎进行查询,生成最终报表。
CDH从5.10开始,打包集成Kudu1.2,而且Cloudera正式提供支持。这个版本开始Kudu的安装较以前要简单不少,省去了Impala_Kudu,安装完Kudu,Impala便可直接操做Kudu。 CSD 包下载 软件下载: http://archive.cloudera.com/kudu/csd/ KUDU-5.10.2.jar parcel 包: http://archive.cloudera.com/kudu/parcels/5.12.2.8/ KUDU-1.4.0-1.cdh5.12.2.p0.8-el7.parcel KUDU-1.4.0-1.cdh5.12.2.p0.8-el7.parcel.sha1 manifest.json
mv KUDU-5.10.2.jar /opt/cloudera/csd/ chown cloudera-scm:cloudera-scm /opt/cloudera/csd/KUDU-5.10.2.jar cd /opt/cloudera/csd/ chmod 644 KUDU-5.10.2.jar
配置httpd-server yum install -y httpd* service httpd start chkconfig httpd on mv KUDU-1.4.0-1.cdh5.12.2.p0.8-el7.parcel* /var/www/html/kudu mv manifest.json /var/www/html/kudu/ cd /var/www/html/kudu/ mv KUDU-1.4.0-1.cdh5.12.2.p0.8-el7.parcel.sha1 KUDU-1.4.0-1.cdh5.12.2.p0.8-el7.parcel.sha
impala-shell -i 172.17.100.11 create database kudu_test;
use kudu_test; CREATE TABLE my_first_table ( id BIGINT, name STRING, PRIMARY KEY(id) ) PARTITION BY HASH PARTITIONS 16 STORED AS KUDU;
INSERT INTO my_first_table VALUES (99, "sarah"); INSERT INTO my_first_table VALUES (100, "zhangyy"); INSERT INTO my_first_table VALUES (200, "spark");
update my_first_table set name='hadoop' where id=99;