HiBench学习笔记

时间 2019-11-17

标签 hibench 学习笔记繁體版

原文原文链接

HiBench资源及教程：https://github.com/intel-hadoop/HiBench node

介绍：linux

Hadoop新人git

环境 linuxgithub

该笔记针对英语弱鸡&本身在使用过程用遇到的问题的记录。vim

步骤：bash

首先建立一个文件夹HiBench：mkdir HiBench网络

cd HiBench框架

git clone https://github.com/intel-hadoop/HiBenchmaven

先介绍一下个人测试集群的环境：oop

master
resourcemanager
datanode1
datanode2
datanode3

概述

HiBench是用来在速度方面评估不一样的大数据框架的，它包括一系列的Hadoop，Spark，streaming工做负载，包括sort，wordcount，TeraSort, Sleep, SQL, PageRank, Nutch indexing, Bayes, Kmeans, NWeight and enhanced DFSIO,等。一样也为park Streaming, Flink, Storm and Gearpump提供工做负载。

Getting Started

Build HiBench
Run HadoopBench
Run SparkBench
Run StreamingBench (Spark streaming, Flink, Storm, Gearpump)

Build HiBench

运行mvn -Dscala=2.11 clean package 是Build All，即创建HiBench的全部模块。

可能遇到的问题：

1.bash: mvn : command not found

缘由：你的系统上没有安装maven

解决方法：去官网下载

2.执行过程当中出现失败

缘由：多是网络的问题吧，我也不是很清楚

解决方法：重复执行该命令，最后出现build succeed 便可。

Run HadoopBench

1.确保：

Python 2.x(>=2.6) is required.
Supported Hadoop version: Apache Hadoop 2.x, CDH5.x, HDP
Build HiBench according to build HiBench.
Start HDFS, Yarn in the cluster.

2.建立并修改配置文件hadoop.conf

在HiBench的conf下：mkdir hadoop.conf

在HiBench下: cp conf/hadoop.conf.template conf/hadoop.conf

而后修改配置文件： vim hadoop.conf

按照下图的规范：

注意：

1.hibench.hadoop.home是你本机上hadoop的安装路径

2.在配置hibench.hdfs.master的时候我傻傻地写了hdfs://localhost:8020/user/username。。。致使后来运行脚本一直不成功。

首先localhost是你的机器的IP，也能够在命令行输入hostname，用hostname来代替localhost便可。

后面的端口号也不是8020，要根据本机的端口，在命令行输入vi ~/local/hadoop-2.7.3/etc/hadoop/core-site.xml，能够观察到

hdfs://master:9000代替hdfs://localhost:8020，

username写的是你把数据存在了usr下的那个文件里

我配置完的状况是：

接下来就是在HiBench下运行脚本

若是前面都没有问题的话，是能正常执行的。
执行完成之后，你能够在HiBench/report/hibench.report中查看 workload name, execution duration, data size, throughput per cluster, throughput per node等信息bin/workloads/micro/wordcount/prepare/prepare.sh bin/workloads/micro/wordcount/hadoop/run.sh


数据规模也是能够设置的：修改conf/hibench.conf里面的hibench.scale.profile项。未完待续。。。