栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

大数据基准套件Hibench配置

大数据基准套件Hibench配置

大数据基准套件Hibench配置
    • 1. 配置要求
    • 2. 下载Hibench
    • 3. 安装所需要的maven依赖
    • 4. 配置Hibench
      • 4.1 配置`conf/hadoop.conf`
      • 4.2 配置`conf/hibench.conf`
      • 4.3 配置`conf/spark.conf`
    • 5. 参考资料

重要的写在前面,对于spark3,在spark配置中,如果master用的是yarn,需要配置为 yarn,而不是注释中的 yarn-client。因为spark3开始, yarn-client视为了 depreicated。

1. 配置要求

Java
Maven
Python2.6+(一般Linux发行版都有自带)
以上三个都要在环境变量中。maven不要忘记换成国内镜像。
2021最新阿里云镜像:


  central
  central
  aliyun
  https://maven.aliyun.com/repository/public

2. 下载Hibench

GitHub地址:https://github.com/Intel-bigdata/HiBench。下载zip或者git clone都可以。

3. 安装所需要的maven依赖

建议测试哪个大数据框架,就安装对应的框架,不要一下子Build All。
Build a specific framework benchmark就可以了。
下面是GitHub上的截图:

这里Hadoop版本默认是3.2(Hadoop 3.x版本我觉得都兼容,所以这里无所谓)
spark版本和Scala版本可以参考${SPARK_HOME}/bin/spark-shell里的显示。

这里版本只需要有一个小数点的数即可,即2.12和3.0

4. 配置Hibench 4.1 配置conf/hadoop.conf

conf目录里默认的是hadoop.conf.template。

cp hadoop.conf.template hadoop.conf

然后在hadoop.conf里修改

根据自己hadoop的安装位置和HDFS的配置文件(忘记了可以看$HADOOP_HOME/etc/hadoop/hdfs-site.xml)配置即可.

4.2 配置conf/hibench.conf

测试数据量和并发度在hibench.conf里

4.3 配置conf/spark.conf

注意,这里有坑,官方给的提示是错误的
hibench.spark.master 如果用的是yarn,需要配置为yarn,而不是yarn-client,不然报会报 Master must either be yarn or start with spark, mesos, k8s, or local的错误
基本上所有的博客在这里的配置都是yarn-client,但是spark3开始已经把它视为depreciated
在GitHub上找到了正确配置

5. 参考资料

https://www.jianshu.com/p/cc453ba775e9
https://github.com/Intel-bigdata/HiBench

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/487190.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号