大数据之hadoop中的HDFS（包括客户端操作）

1、概述

随着数据量的日益增长，数据的存储问题尤为突出，HDFS就是分布式文件管理系统中的一种。主要适用于一次写入，多次读出的场景。

hdfs优点：高容错性（数据自动保存多个副本，通过增加副本的形式，提高容错性；某个副本丢失以后，可以自动恢复。）；适合处理大数据；可构建在廉价机器上。

hdfs缺点：不适合低延时数据访问；无法高效的对大量小文件进行存储；不支持并发写入、文件随机修改（一个文件只能有一个写，不允许多个线程同时写；仅支持数据append，不支持文件的随机修改）。

HDFS组成架构

其中：NameNode（nn）：就是文件的管理者，管理HDFS的名称空间；配置副本策略；管理数据块映射信息；处理客户端读写请求。DataNode：就是执行NameNode下达的命令，主要存储实际的数据块，执行数据块的读/写操作。Client：客户端，负责文件的切分（文件上传时，Client将文件切分成一个一个的块，然后上传），与NameNode进行交互，获取文件的位置信息，与DataNode交互，读取或者写入数据；提供一些命令来管理HDFS，同时访问HDFS进行增删改查操作。Seconddary NameNode：辅助NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode ；在紧急情况下，可辅助恢复NameNode。

2、HDFS的shell操作

基本语法：hadoop fs 具体命令

常用命令：

上传：-moveFromLocal：从本地剪切粘贴到HDFS；

-copyFromLocal：从本地文件系统中拷贝文件到 HDFS 路径去（本地文件依然存在）

-put：等同于 copyFromLocal，生产环境更习惯用 put

-appendToFile：追加一个文件到已经存在的文件末尾

下载：-copyToLocal：从 HDFS 拷贝到本地

-get：等同于 copyToLocal，生产环境更习惯用 get

直接操作：-ls: 显示目录信息

-cat：显示文件内容

-chgrp、-chmod、-chown：Linux 文件系统中的用法一样，修改文件所属权限

-cp：从 HDFS 的一个路径拷贝到 HDFS 的另一个路径

-tail：显示一个文件的末尾 1kb 的数据

-mv：在 HDFS 目录中移动文件

-rm：删除文件或文件夹

-mkdir：创建路径

-du 统计文件夹的大小信息

3、HDFS的API操作

介绍：通过使用IDEA作为客户端来对HDFS进行操作

首先进行客户端的环境配置，下载hadoop-3.1.0的资料包，然后在本机系统变量中加入HADOOP_HOME环境变量。

接着在IDEA中创建Maven工程，导入依赖和日志添加

配置环境：在项目中的pom.xml文件中导入依赖


        8
        8
    
    
    
        
            org.apache.hadoop
            hadoop-client
            3.1.3
        
        
            junit
            junit
            4.12
        
        
            org.slf4j
            slf4j-log4j12
            1.7.30

在项目的 src/main/resources 目录下，新建一个文件，命名为“log4j.properties”，在文件中填入：

log4j.rootLogger=INFO, stdout 
log4j.appender.stdout=org.apache.log4j.ConsoleAppender 
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout 
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n 
log4j.appender.logfile=org.apache.log4j.FileAppender 
log4j.appender.logfile.File=target/spring.log 
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout 
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

创建一个客户端的类对HDFS进行操作。下面是具体实际操作：

package cn.itjdb.hadoop;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;


import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.Arrays;



public class HDFSClient{

    private FileSystem fs;
    @Before
    public void init() throws URISyntaxException, IOException, InterruptedException {
        //连接集群的nn地址
        URI uri=new URI("hdfs://hadoop102:8020");
        //创建一个配置文件
        Configuration configuration=new Configuration();
        //用户
        String user="atguigu";
        //1、获取客户端对象
        fs=FileSystem.get(uri,configuration,user);
    }
    @After
    public void close() throws IOException {
        //3、关闭资源
        fs.close();
    }

    @Test
    public void testMkdir() throws  IOException{
        //2、执行相关操作，创建一个文件夹
        fs.mkdirs(new Path("/nihao/ceshi"));
    }

    //上传
    @Test
    public void testPut() throws IOException {
        //2、执行相关操作，上传文件
        //参数解读：参数1、表示删除原数据，参数2、表示是否允许覆盖，参数3、原数据路径(本地路径)，参数4、目的地路径(下面的路径也可以写成：hdfs://hadoop102/nihao/ceshi)--->ctrl+p：查看方法参数
        fs.copyFromLocalFile(false,true,new Path("D:\input\inputflow\phone_data.txt"),new Path("/nihao/ceshi"));
    }

    //下载
    @Test
    public void testGet() throws IOException {
        //2、执行相关操作，下载文件
        //参数解读：参数1、源文件是否删除，参数2、源文件路径HDFS，参数3、目标地址路径win，参数4、是否开启文件校验(验证传输时数据是否丢失)
        fs.copyToLocalFile(false,new Path("/nihao/ceshi/phone_data.txt"),new Path("D:\input\inputflow\"),false);
    }

    //删除
    @Test
    public void testDelete() throws IOException {
        //2、执行相关操作，删除文件
        //参数解读：参数1、要删除的路径，参数2、表示是否要递归删除(就是文件夹中有多个文件，删除文件夹的时候使用递归删除)
        fs.delete(new Path("/nihao/ceshi/phone_data.txt"),false);
    }

    //文件的更名和移动
    @Test
    public void testmv() throws IOException {
        //2、执行相关操作，文件更名和移动 
        fs.rename(new Path("/inputfile/phone_data.txt"),new Path("/inputfile/phone_data2.txt"));
    }

    //获取文件详细信息
    @Test
    public void fileDetail() throws IOException {
        //获取所有文件信息,返回的是一个列表(在方法后面加上.var可以得到完整的方法返回)
        RemoteIterator locatedFileStatusRemoteIterator = fs.listFiles(new Path("/"), true);

        //遍历所有的文件，显示详情
        while (locatedFileStatusRemoteIterator.hasNext()){
            //此时获取每一个文件的详细信息
            LocatedFileStatus fileStatus = locatedFileStatusRemoteIterator.next();
            System.out.println("====================="+fileStatus.getPath()+"==================");  //得到文件路径
            System.out.println(fileStatus.getPermission());
            System.out.println(fileStatus.getOwner());
            System.out.println(fileStatus.getGroup());
            System.out.println(fileStatus.getLen());
            System.out.println(fileStatus.getModificationTime());
            System.out.println(fileStatus.getReplication());
            System.out.println(fileStatus.getBlockSize());
            System.out.println(fileStatus.getPath().getName());

            //获取文件内块的信息
            BlockLocation[] blockLocations = fileStatus.getBlockLocations();
            System.out.println(Arrays.toString(blockLocations));
        }
    }

    //文件夹判断
    @Test
    public void testFile() throws IOException {
        FileStatus[] fileStatuses = fs.listStatus(new Path("/"));

        //遍历输出
        for (FileStatus status:fileStatuses){
            if (status.isFile()){
                System.out.println("文件："+status.getPath().getName());
            }else {
                System.out.println("目录："+status.getPath().getName());
            }
        }

    }


}

大数据之hadoop中的HDFS（包括客户端操作）

大数据系统相关栏目本月热门文章