HiBench学习笔记

HiBench资源及教程:https://github.com/intel-hadoop/HiBench node

介绍:linux

Hadoop新人git

环境 linuxgithub

该笔记针对英语弱鸡&本身在使用过程用遇到的问题的记录。vim

 

步骤:bash

首先建立一个文件夹HiBench:mkdir HiBench网络

cd HiBench框架

git clone https://github.com/intel-hadoop/HiBenchmaven

先介绍一下个人测试集群的环境:oop

master 
resourcemanager 
datanode1
datanode2
datanode3
 

概述

HiBench是用来在速度方面评估不一样的大数据框架的,它包括一系列的Hadoop,Spark,streaming工做负载,包括sort,wordcount,TeraSort, Sleep, SQL, PageRank, Nutch indexing, Bayes, Kmeans, NWeight and enhanced DFSIO,等。一样也为park Streaming, Flink, Storm and Gearpump提供工做负载。

Getting Started

  • Build HiBench
  • Run HadoopBench
  • Run SparkBench
  • Run StreamingBench (Spark streaming, Flink, Storm, Gearpump)

 

Build HiBench

运行mvn -Dscala=2.11 clean package 是Build All,即创建HiBench的全部模块。

可能遇到的问题:

1.bash: mvn : command not found

缘由:你的系统上没有安装maven

解决方法:去官网下载

2.执行过程当中出现失败

缘由:多是网络的问题吧,我也不是很清楚

解决方法:重复执行该命令,最后出现build succeed 便可。

 

Run HadoopBench

1.确保:

  • Python 2.x(>=2.6) is required.

  • Supported Hadoop version: Apache Hadoop 2.x, CDH5.x, HDP

  • Build HiBench according to build HiBench.

  • Start HDFS, Yarn in the cluster.

2.建立并修改配置文件hadoop.conf

在HiBench的conf下:mkdir hadoop.conf

在HiBench下: cp conf/hadoop.conf.template conf/hadoop.conf

而后修改配置文件: vim hadoop.conf

按照下图的规范:

注意:

1.hibench.hadoop.home是你本机上hadoop的安装路径

2.在配置hibench.hdfs.master的时候我傻傻地写了hdfs://localhost:8020/user/username。。。致使后来运行脚本一直不成功。

首先localhost是你的机器的IP,也能够在命令行输入hostname,用hostname来代替localhost便可。

后面的端口号也不是8020,要根据本机的端口,在命令行输入vi ~/local/hadoop-2.7.3/etc/hadoop/core-site.xml,能够观察到

hdfs://master:9000代替hdfs://localhost:8020,

username写的是你把数据存在了usr下的那个文件里

我配置完的状况是:

 

接下来就是在HiBench下运行脚本

若是前面都没有问题的话,是能正常执行的。
执行完成之后,你能够在HiBench/report/hibench.report中查看 workload name, execution duration, data size, throughput per cluster, throughput per node等信息bin/workloads/micro/wordcount/prepare/prepare.sh bin/workloads/micro/wordcount/hadoop/run.sh


数据规模也是能够设置的:修改conf/hibench.conf里面的hibench.scale.profile项。未完待续。。。
相关文章
相关标签/搜索