Hadoop调优第一篇_大数据系统

1.hdfs核心参数——回收站设置

第一步，在调优前我们需要对namenode与datanode的内存配置进行参数化设置。通过hadoop-env.sh查看namenode与datdanode的具体参数。相关参数设置如下

export HDFS_NAMENODE_OPTS=”-Dhadoop.security.logger=INFO,RFAS -Xmx1024m”

export HDFS_DATANODE_OPTS=”-Dhadoop.security.logger=ERROR,RFAS -Xmx1024m”

此次是将namenode和datanode的内存均分配为1G，不设置该参数则JVM会根据服务器自动分配内存大小。

第二步设置namenode心跳并发配置（所谓的心跳并发是检验namenode是否正常运行）,在hdfs-site.xml中设置参数，如下：

dfs.namenode.handler.count

该值的设置需要根据实际企业需要来设置。一般如果有三台datanode则需要loge3，为什么这里需要datanode的数量，因为namenode是管理datanode，一个namenode下可能管理2-3个datanode。就像master配置的是namenode,slave1、slave2配置的是datanode。在比赛的时候可以根据python公式计算相关内容。

第三步回收机制设置。

当我们使用hdfs dfs -rm -r 删除某个文件时。可以实现上我们在window系统上删除某个文件，将其放在了回收站的功能，也可以让liunx自动去检索回收站的内容，将回收站的内容每隔一段时间清空。实现的配置文件需要在core-site.xml中设置.

fs.trash.interval

此处设置为0，则是禁用回收站功能，当然我们也可以设置为其他值，这里的单位是分钟。如设置n，则表示该将文件通过hdfs dfs -rm -r 删除文件后，该文件还能在回收站存活n分钟。但是我们如何检验文件是否在回收站中的存货时间是否超过设置的n值呢？此时就需要另外一个参数设置了

fs.trash.checkpoint.interval

此时的m小于n的值。

将文件从回收站中恢复可以通过下面命令，怎样找到回收站呢？当你设置好了，使用hdfs dfs -rm -r 删除文件时会提示你，所删除的文件在哪。你可以根据相关文件的目录还原文件，避免误删。还原命令：

hdfs dfs -mv 删除路径还原路径

注意：不是所有的操作都可以进入回收站的。如通过代码执行程序或者直接在web页面上删除文件不会进入回收站。还有如果使用hdfs dfs -rm -r -skipTrash方法也是直接跳过回收站删除文件的。

2.集群压测

当我们配置好hadoop相关文件，想测试一下hadoop的读写性能可以使用哪些办法呢？

其实很简单

hadoop jar /usr/Hadoop/Hadoop-2.7.7/share/Hadoop/mapreduce/Hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 10MB

此时测试的是写的能力，测试10次，每次测试文件的大小为10MB

读的能力仅将-write替换成-read就行。当我们每次测试时需要在其他目录下，因为每次测试会产生一个文件，里面记录着测试的日志文件。

清除测试的办法就是

hadoop jar /usr/Hadoop/Hadoop-2.7.7/share/Hadoop/mapreduce/Hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -clean

3.hdfs多目录（与高可用不一样，做此操作时需要将在hdfs-site.xml原始的namenode与datanode目录下的配置文件删了）

多目录就是在某个节点上增加namenode或datanode的数量，一开始我们在配置环境时，每个节点上只有一个namenode或者datanode。现在老板有需求，想要每个节点上不止一个namenode和datanode。一个节点上多个namenode可以提高节点的可靠性，同一节点的多个namenode内容是相同的。而datanode则不同，是为了增加硬盘的存储容量。在实际中真正存储数据的是datanode。hdfs-site.xml配置文件如下：

dfs.namenode.name.dir

file://${hadoopt.tmp.dir}/dfs/name1,file://${hadoopt.tmp.dir}/dfs/name2

dfs.datanode.data.dir

file://${hadoopt.tmp.dir}/dfs/data1,file://${hadoopt.tmp.dir}/dfs/data2

在重新配置namenode与datanode时需要停止hadoop集群，重新格式化.

4.hdfs-集群扩容与缩容（增删节点）

(1)增加节点（slave3）

vim slaves

slave3

传到slave1,slave2,slave3上

在slave3上重新启动datanode与nodemanager

hadoop-daemon.sh start datanode

yarn-daemon.sh start nodemanager

在master上刷新节点hdfs dfsadmin -refreshNodes

(2)删除节点（删除slave2）

master:

vim whitelist

master

slave1

vim blacklist

slave2

vim hdfs-site.xml(最后增加)首次增加增删节点需要重启hadoop集群

dfs.hosts

file:/usr/hadoop/hadoop-2.7.7/etc/hadoop/whitelist

dfs.hosts.excludes

file:/usr/hadoop/hadoop-2.7.7/etc/Hadoop/blacklist

刷新节点命令：

hdfs dfsadmin -refreshNodes

如果总是在某一个节点上提交任务，会导致该节点的数据量远大于其他节点。数据量会不均衡。当该节点出故障时，所有数据都会遗失，因此怎样才能保证每个节点上都有数据，使用下面命令.

sbin/start-balance.sh threshold 10

对于参数10，代表的是集群中各个节点的磁盘空间利用率相差不超过10%，可根据实际情况进行调整。

停止数据均衡命令

sbin/stop-balance.sh

6.存储优化（hadoop3.x版本）

hdfs storagepolicies -listPolicies ##查看存储策略

hdfs storagepolicies -setStoragePolicy -path xxx -policy xxx ##为指定路径设置指定的存储策略

hdfs storagepolicies -getStoragePolicy -path xxx ##获得指定路径的存储策略

hdfs storagepolicies -unsetStoragePolicy -path xxx ##取消指定路径的存储策略

存储策略的设置是为了适应现实生活中，我们访问不同数据的实际情况。有些数据我们经常性访问读取，有些数据暂时性访问读取，有些数据不访问读取。因此我们需要对每个节点设置相应的存储策略。存储策略的设置每个节点可能不同，需要根据题目要求或者实际要求来设置。一般在每个节点的hdfs-site.xml中添加存储策略的设置。在设置存储策略时，我们需要开启存储策略的设置。怎样对每个节点设置相关的存储策略,直接在datanode.dir的值前面加上相关的存储设备。为什么只在datanode上设置存储策略呢？因为在实际情况中datanode才是存储数据的

存储设备和存储策略可以根据上面的图来解释。从高到低访问的速度越慢。

dfs.replication

dfs.storage.policy.enabled

true

slave1:

dfs .datanode.data.dir

[SSD]file://use/hadoop/hadoop-2.7.7/hdfs/ssd,

[DISK]file://usr/hadoop/hadoop-2.7.7/hdfs/disk,[RAM_DISK]file://usr/hadoop/hadoop-2.7.7/hdfs/ram_disk,[ARCHIVE]file://usr/hadoop/hadoop-2.7.7/hdfs/archive

默认的存储策略是host，一个sdd和多个disk。设置完存储策略后需要重新格式化，启动集群，上传文件到hadoop上。

更改存储策略方法

首先查看数据存储在哪

hdfs fsck /xxx -files -blocks -locations

此时可以根据文件存储的位置查看存储策略，再修改存储策略

hdfs storagepolicies -setStoragePolicy -path xxx -policy xxx

再次查看数据存储在哪？

hdfs fsck /xxx -files -blocks -locations

此时存储位置未发生变化，需要移动存储文件

hdfs mover xxx

最后可以发现存储策略发生更改了。

注意：如果想改变成Lazy_Persist需要更改部分参数。因为无论是在虚拟机中还是在本机中，对ram_disk有所限制。首先是内存大小的限制。可以通过hdfs-default.xml查看datanode的默认存储的数据大小。一般默认为0，因为内存访问虽然快，但是内存没有了整个数据都没了。

查看虚拟机默认的值

ulimit -a

Hadoop调优第一篇

大数据系统相关栏目本月热门文章