栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

hadoop2.x和hadoop3.x新特性-面试用

hadoop2.x和hadoop3.x新特性-面试用

简介:
本篇博客主要是供自己学习使用,且本篇博客还要很多内容没有补充完整,最近都很忙,后续有时间了都会相继补上,如有不足的地方还望各位大佬谅解,同时欢迎批评指出,谢谢!

hadoop2.x新特性 集群间的数据拷贝 scp实现两个远程主机之间的文件复制
scp -r hello.txt root@bdc113:/user/lqs/hello.txt //推 push
scp -r root@bdc113:/user/lqs/hello.txt hello.txt // 拉 pull
scp -r root@bdc113:/user/lqs/hello.txt root@bdc114:/user/lqs//是通过本地主机中转实现两个远程主机的文件复制;如果在两个远程主机之间 ssh 没有配置的情况下可以使用该方式。
采用discp命令实现两个hadoop集群之间的递归数据复制
[lqs@bdc112 hadoop-3.1.3]$ bin/hadoop distcp
hdfs://bdc112 :8020/user/lqs/hello.txt
hdfs://bdc115 :8020/user/lqs/hello.txt
小文件存档 小文件存档的缺点

文件均是按照块存储的,即每个块的元数据存储在nn的内存,因此hdfs存储小文件会非常的低效。因为大量的小文件会耗尽nn中的大部分内存。但是要注意,存储小文件所需要的磁盘容量和数据块的大小无关。比如,一个1M的文件设置为128M的块存储,实际使用的磁盘空间依旧是1M,而不是使用了128M。

解决小文件存储办法之一

hdfs存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入hdfs块,在减少NameNode内存使用的同时,还允许对文件进行透明的访问具体说来,hdfs存档文件对内还是一个一个独立文件,对NameNode而言却是一个整体,减少了NameNode的内存。

案例实操

setup01:启动yarn进程

[lqs@bdc112 hadoop-3.1.3]$ start-yarn.sh

setup02:归档文件

把/user/lqs/input 目录里面的所有文件归档成一个叫 input.har 的归档文件,并把归档后文件存储到/user/lqs/output 路径下。

[lqs@bdc112 hadoop-3.1.3]$ hadoop archive -archiveName input.har -p /user/lqs/input /user/lqs/output

(3)查看归档

[lqs@bdc112 hadoop-3.1.3]$ hadoop fs -ls
/user/lqs/output/input.har
[lqs@bdc112 hadoop-3.1.3]$ hadoop fs -ls
har:///user/lqs/output/input.har

(4)解归档文件

[lqs@bdc112 hadoop-3.1.3]$ hadoop fs -cp har:///
user/lqs/output/input.har/* /user/lqs
回收站

概述:
开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、
备份等作用。

回收站参数设置即工作机制 开启回收站功能参数

1、默认值fs.trash.interval=0,0表示禁用回收站;其他值表示设置文件的存活时间。
2、默认值fs.trash.checkpoint.interval=0,检查回收站的间隔时间。如果该值为0,
则该值设置和fs.trash.interval的参数值相等。
3、要求fs.trash.checkpoint.interval<=fs.trash.interval

启动回收站

需要在core-site.xml中配置回收时间为1分钟


	fs.trash.interval
	1

查看回收站:hdfs集群中路径为:/user/atguigu/.Trash/….

本地配置

通过程序删除的文件不会经过回收站,需要调用 moveToTrash()才进入回收站

package com.lqs.mapreduce.wordcount;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;



public class WordCountDriver {

    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {

        //1、获取配置信息以及获取job对象
        Configuration configuration = new Configuration();
        Job job = Job.getInstance(configuration);

		//因为本地的客户端拿不到集群的配置信息 所以需要自己手动设置一下回收站
		conf.set(“fs.trash.interval”,”1”);
		conf.set(“fs.trash.checkpoint.interval”,”1”);
//创建一个回收站对象
		Trash trash = New Trash(conf);
		trash.moveToTrash(path);

        //2、关联本Driver程序的jar,或者是驱动类
        job.setJarByClass(WordCountDriver.class);

        //3、关联Mapper和Reducer的jar
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);

        //4、设置Mapper输出的kv类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        //5、设置最终输出kv类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //6、设置输入和输出路径
        FileInputFormat.setInputPaths(job, new Path("F:\hdpData\Input\inputword"));
        FileOutputFormat.setOutputPath(job, new Path("F:\hdpData\Output\outputWord"));

        //7、提交job
        boolean result = job.waitForCompletion(true);
        System.exit(result ? 0 : 1);

    }

}

注意:通过网页上直接删除的文件也不会走回收站,只有在命令行利用hadoop fs -rm 命令删除的文件才会走回收站

[lqs@bdc112 hadoop-3.1.3]$ hadoop fs -rm -r /user/lqs/input
2020-07-14 16:13:42,643 INFO fs.TrashPolicyDefault: Moved:
'hdfs://bdc112 :8020/user/lqs/input' to trash at:
hdfs://bdc112 :8020/user/lqs/.Trash/Current/user/lqs/input
修复回收站数据
[lqs@bdc112 hadoop-3.1.3]$ hadoop fs -mv
/user/lqs/.Trash/Current/user/lqs/input /user/lqs/input
hadoop3.x新特性 NameNode的HA架构

hdfs nn高可用性的初始实现为单个活动NN和当备用NN,将edits复制到JoumaINode。该体系结构能够容忍系统中一个NN或一个JN的故障。但是某些部署需要更高程度的容错能力。hadoop3.x允许用户运行多个备用NN,例如,通过配置三个NN和五个JournanlNode,集群能够容忍两个节点而不是一个点的故障。

纠删码

hdfs 中的默认 3 副本方案在存储空间和其他资源(例如,网络带宽)中具有 200%的开销。但是,对于 I / O 活动相对较低暖和冷数据集,在正常操作期间很少访问其他块副本,但仍会消耗与第一个副本相同的资源量。
纠删码(Erasure Coding)能够在不到 50% 的数据冗余情况下提供和 3 副本相同的容错能力,因此,使用纠删码作为副本机制的改进是自然而然的。
查看集群支持的纠删码策略:hdfs ec -listPolicies

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/677094.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号