大数据基准套件Hibench配置

- 1. 配置要求
- 2. 下载Hibench
- 3. 安装所需要的maven依赖
- 4. 配置Hibench
- - 4.1 配置`conf/hadoop.conf`
  - 4.2 配置`conf/hibench.conf`
  - 4.3 配置`conf/spark.conf`
- 5. 参考资料

重要的写在前面，对于spark3，在spark配置中，如果master用的是yarn，需要配置为 yarn,而不是注释中的 yarn-client。因为spark3开始， yarn-client视为了 depreicated。

1. 配置要求

Java
Maven
Python2.6+（一般Linux发行版都有自带）
以上三个都要在环境变量中。maven不要忘记换成国内镜像。
2021最新阿里云镜像：


  central
  central
  aliyun
  https://maven.aliyun.com/repository/public

2. 下载Hibench

GitHub地址：https://github.com/Intel-bigdata/HiBench。下载zip或者git clone都可以。

3. 安装所需要的maven依赖

建议测试哪个大数据框架，就安装对应的框架，不要一下子Build All。
Build a specific framework benchmark就可以了。
下面是GitHub上的截图：

这里Hadoop版本默认是3.2（Hadoop 3.x版本我觉得都兼容，所以这里无所谓）
spark版本和Scala版本可以参考${SPARK_HOME}/bin/spark-shell里的显示。

这里版本只需要有一个小数点的数即可，即2.12和3.0

4. 配置Hibench 4.1 配置conf/hadoop.conf

conf目录里默认的是hadoop.conf.template。

cp hadoop.conf.template hadoop.conf

然后在hadoop.conf里修改

根据自己hadoop的安装位置和HDFS的配置文件（忘记了可以看$HADOOP_HOME/etc/hadoop/hdfs-site.xml）配置即可.

4.2 配置conf/hibench.conf

测试数据量和并发度在hibench.conf里

4.3 配置conf/spark.conf

注意，这里有坑，官方给的提示是错误的
hibench.spark.master 如果用的是yarn，需要配置为yarn，而不是yarn-client，不然报会报 Master must either be yarn or start with spark, mesos, k8s, or local的错误
基本上所有的博客在这里的配置都是yarn-client,但是spark3开始已经把它视为depreciated
在GitHub上找到了正确配置

5. 参考资料

https://www.jianshu.com/p/cc453ba775e9
https://github.com/Intel-bigdata/HiBench

大数据基准套件Hibench配置

大数据系统相关栏目本月热门文章