栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Hadoop调优第一篇

Hadoop调优第一篇

1.hdfs核心参数——回收站设置

第一步,在调优前我们需要对namenode与datanode的内存配置进行参数化设置。通过hadoop-env.sh查看namenode与datdanode的具体参数。相关参数设置如下

export HDFS_NAMENODE_OPTS=”-Dhadoop.security.logger=INFO,RFAS -Xmx1024m”

export HDFS_DATANODE_OPTS=”-Dhadoop.security.logger=ERROR,RFAS -Xmx1024m”

此次是将namenode和datanode的内存均分配为1G,不设置该参数则JVM会根据服务器自动分配内存大小。

第二步设置namenode心跳并发配置(所谓的心跳并发是检验namenode是否正常运行),在hdfs-site.xml中设置参数,如下:

       dfs.namenode.handler.count

       10                         

该值的设置需要根据实际企业需要来设置。一般如果有三台datanode则需要loge3,为什么这里需要datanode的数量,因为namenode是管理datanode,一个namenode下可能管理2-3个datanode。就像master配置的是namenode,slave1、slave2配置的是datanode。在比赛的时候可以根据python公式计算相关内容。

第三步回收机制设置。

当我们使用hdfs dfs -rm -r 删除某个文件时。可以实现上我们在window系统上删除某个文件,将其放在了回收站的功能,也可以让liunx自动去检索回收站的内容,将回收站的内容每隔一段时间清空。实现的配置文件需要在core-site.xml中设置.

       fs.trash.interval

       0

此处设置为0,则是禁用回收站功能,当然我们也可以设置为其他值,这里的单位是分钟。如设置n,则表示该将文件通过hdfs dfs -rm -r 删除文件后,该文件还能在回收站存活n分钟。但是我们如何检验文件是否在回收站中的存货时间是否超过设置的n值呢?此时就需要另外一个参数设置了

       fs.trash.checkpoint.interval

       m

此时的m小于n的值。

将文件从回收站中恢复可以通过下面命令,怎样找到回收站呢?当你设置好了,使用hdfs dfs -rm -r 删除文件时会提示你,所删除的文件在哪。你可以根据相关文件的目录还原文件,避免误删。还原命令:

hdfs dfs -mv 删除路径 还原路径

注意:不是所有的操作都可以进入回收站的。如通过代码执行程序或者直接在web页面上删除文件不会进入回收站。还有如果使用hdfs dfs -rm -r -skipTrash方法也是直接跳过回收站删除文件的。

2.集群压测

当我们配置好hadoop相关文件,想测试一下hadoop的读写性能可以使用哪些办法呢?

其实很简单

hadoop jar /usr/Hadoop/Hadoop-2.7.7/share/Hadoop/mapreduce/Hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 10MB

此时测试的是写的能力,测试10次,每次测试文件的大小为10MB

读的能力仅将-write替换成-read就行。当我们每次测试时需要在其他目录下,因为每次测试会产生一个文件,里面记录着测试的日志文件。

清除测试的办法就是

hadoop jar /usr/Hadoop/Hadoop-2.7.7/share/Hadoop/mapreduce/Hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -clean

3.hdfs多目录(与高可用不一样,做此操作时需要将在hdfs-site.xml原始的namenode与datanode目录下的配置文件删了)

多目录就是在某个节点上增加namenode或datanode的数量,一开始我们在配置环境时,每个节点上只有一个namenode或者datanode。现在老板有需求,想要每个节点上不止一个namenode和datanode。一个节点上多个namenode可以提高节点的可靠性,同一节点的多个namenode内容是相同的。而datanode则不同,是为了增加硬盘的存储容量。在实际中真正存储数据的是datanode。hdfs-site.xml配置文件如下:

       dfs.namenode.name.dir

       file://${hadoopt.tmp.dir}/dfs/name1,file://${hadoopt.tmp.dir}/dfs/name2

       dfs.datanode.data.dir

       file://${hadoopt.tmp.dir}/dfs/data1,file://${hadoopt.tmp.dir}/dfs/data2

在重新配置namenode与datanode时需要停止hadoop集群,重新格式化.

4.hdfs-集群扩容与缩容(增删节点)

(1)增加节点(slave3)

vim slaves

slave3

传到slave1,slave2,slave3上

在slave3上重新启动datanode与nodemanager

hadoop-daemon.sh start datanode

yarn-daemon.sh start nodemanager

在master上刷新节点hdfs dfsadmin -refreshNodes

(2)删除节点(删除slave2)

master:

vim whitelist

master

slave1

vim blacklist

slave2

vim hdfs-site.xml(最后增加)首次增加增删节点需要重启hadoop集群

       dfs.hosts

       file:/usr/hadoop/hadoop-2.7.7/etc/hadoop/whitelist

       dfs.hosts.excludes

       file:/usr/hadoop/hadoop-2.7.7/etc/Hadoop/blacklist

刷新节点命令:

hdfs dfsadmin -refreshNodes

如果总是在某一个节点上提交任务,会导致该节点的数据量远大于其他节点。数据量会不均衡。当该节点出故障时,所有数据都会遗失,因此怎样才能保证每个节点上都有数据,使用下面命令.

sbin/start-balance.sh threshold 10

对于参数10,代表的是集群中各个节点的磁盘空间利用率相差不超过10%,可根据实际情况进行调整。

停止数据均衡命令

sbin/stop-balance.sh

6.存储优化(hadoop3.x版本)

hdfs storagepolicies -listPolicies                                                   ##查看存储策略

hdfs storagepolicies -setStoragePolicy -path xxx -policy xxx         ##为指定路径设置指定的存储策略

hdfs storagepolicies -getStoragePolicy -path xxx                        ##获得指定路径的存储策略

hdfs storagepolicies -unsetStoragePolicy -path xxx                      ##取消指定路径的存储策略

存储策略的设置是为了适应现实生活中,我们访问不同数据的实际情况。有些数据我们经常性访问读取,有些数据暂时性访问读取,有些数据不访问读取。因此我们需要对每个节点设置相应的存储策略。存储策略的设置每个节点可能不同,需要根据题目要求或者实际要求来设置。一般在每个节点的hdfs-site.xml中添加存储策略的设置。在设置存储策略时,我们需要开启存储策略的设置。怎样对每个节点设置相关的存储策略,直接在datanode.dir的值前面加上相关的存储设备。为什么只在datanode上设置存储策略呢?因为在实际情况中datanode才是存储数据的

存储设备和存储策略可以根据上面的图来解释。从高到低访问的速度越慢。

       dfs.replication

       4

       dfs.storage.policy.enabled

       true

slave1:

       dfs .datanode.data.dir 

     [SSD]file://use/hadoop/hadoop-2.7.7/hdfs/ssd,

[DISK]file://usr/hadoop/hadoop-2.7.7/hdfs/disk,[RAM_DISK]file://usr/hadoop/hadoop-2.7.7/hdfs/ram_disk,[ARCHIVE]file://usr/hadoop/hadoop-2.7.7/hdfs/archive

默认的存储策略是host,一个sdd和多个disk。设置完存储策略后需要重新格式化,启动集群,上传文件到hadoop上。

更改存储策略方法

首先查看数据存储在哪

hdfs fsck /xxx -files -blocks -locations

此时可以根据文件存储的位置查看存储策略,再修改存储策略

hdfs storagepolicies -setStoragePolicy -path xxx -policy xxx

再次查看数据存储在哪?

hdfs fsck /xxx -files -blocks -locations

此时存储位置未发生变化,需要移动存储文件

hdfs mover xxx

最后可以发现存储策略发生更改了。

注意:如果想改变成Lazy_Persist需要更改部分参数。因为无论是在虚拟机中还是在本机中,对ram_disk有所限制。首先是内存大小的限制。可以通过hdfs-default.xml查看datanode的默认存储的数据大小。一般默认为0,因为内存访问虽然快,但是内存没有了整个数据都没了。

查看虚拟机默认的值

ulimit -a

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/601314.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号