- 1. 配置要求
- 2. 下载Hibench
- 3. 安装所需要的maven依赖
- 4. 配置Hibench
- 4.1 配置`conf/hadoop.conf`
- 4.2 配置`conf/hibench.conf`
- 4.3 配置`conf/spark.conf`
- 5. 参考资料
重要的写在前面,对于spark3,在spark配置中,如果master用的是yarn,需要配置为 yarn,而不是注释中的 yarn-client。因为spark3开始, yarn-client视为了 depreicated。 1. 配置要求
Java
Maven
Python2.6+(一般Linux发行版都有自带)
以上三个都要在环境变量中。maven不要忘记换成国内镜像。
2021最新阿里云镜像:
2. 下载Hibenchcentral central aliyun https://maven.aliyun.com/repository/public
GitHub地址:https://github.com/Intel-bigdata/HiBench。下载zip或者git clone都可以。
3. 安装所需要的maven依赖建议测试哪个大数据框架,就安装对应的框架,不要一下子Build All。
Build a specific framework benchmark就可以了。
下面是GitHub上的截图:
这里Hadoop版本默认是3.2(Hadoop 3.x版本我觉得都兼容,所以这里无所谓)
spark版本和Scala版本可以参考${SPARK_HOME}/bin/spark-shell里的显示。
这里版本只需要有一个小数点的数即可,即2.12和3.0
conf目录里默认的是hadoop.conf.template。
cp hadoop.conf.template hadoop.conf
然后在hadoop.conf里修改
根据自己hadoop的安装位置和HDFS的配置文件(忘记了可以看$HADOOP_HOME/etc/hadoop/hdfs-site.xml)配置即可.
测试数据量和并发度在hibench.conf里
4.3 配置conf/spark.conf注意,这里有坑,官方给的提示是错误的
hibench.spark.master 如果用的是yarn,需要配置为yarn,而不是yarn-client,不然报会报 Master must either be yarn or start with spark, mesos, k8s, or local的错误
基本上所有的博客在这里的配置都是yarn-client,但是spark3开始已经把它视为depreciated
在GitHub上找到了正确配置
https://www.jianshu.com/p/cc453ba775e9
https://github.com/Intel-bigdata/HiBench



