栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

大数据之hadoop中的HDFS(包括客户端操作)

大数据之hadoop中的HDFS(包括客户端操作)

1、概述

        随着数据量的日益增长,数据的存储问题尤为突出,HDFS就是分布式文件管理系统中的一种。主要适用于一次写入,多次读出的场景。

        hdfs优点:高容错性(数据自动保存多个副本,通过增加副本的形式,提高容错性;某个副本丢失以后,可以自动恢复。);适合处理大数据;可构建在廉价机器上。

        hdfs缺点:不适合低延时数据访问;无法高效的对大量小文件进行存储;不支持并发写入、文件随机修改(一个文件只能有一个写,不允许多个线程同时写;仅支持数据append,不支持文件的随机修改)。

        HDFS组成架构

 其中:NameNode(nn):就是文件的管理者,管理HDFS的名称空间;配置副本策略;管理数据块映射信息;处理客户端读写请求。DataNode:就是执行NameNode下达的命令,主要存储实际的数据块,执行数据块的读/写操作。Client:客户端,负责文件的切分(文件上传时,Client将文件切分成一个一个的块,然后上传),与NameNode进行交互,获取文件的位置信息,与DataNode交互,读取或者写入数据;提供一些命令来管理HDFS,同时访问HDFS进行增删改查操作。Seconddary NameNode:辅助NameNode,分担其工作量,比如定期合并Fsimage和Edits,并推送给NameNode ;在紧急情况下,可辅助恢复NameNode。

2、HDFS的shell操作

        基本语法:hadoop fs 具体命令

        常用命令:

上传:-moveFromLocal:从本地剪切粘贴到HDFS;

        -copyFromLocal:从本地文件系统中拷贝文件到 HDFS 路径去(本地文件依然存在)

        -put:等同于 copyFromLocal,生产环境更习惯用 put

        -appendToFile:追加一个文件到已经存在的文件末尾

下载:-copyToLocal:从 HDFS 拷贝到本地

        -get:等同于 copyToLocal,生产环境更习惯用 get

直接操作:-ls: 显示目录信息

        -cat:显示文件内容

        -chgrp、-chmod、-chown:Linux 文件系统中的用法一样,修改文件所属权限

        -cp:从 HDFS 的一个路径拷贝到 HDFS 的另一个路径

        -tail:显示一个文件的末尾 1kb 的数据

        -mv:在 HDFS 目录中移动文件

        -rm:删除文件或文件夹

        -mkdir:创建路径

        -rm -r:递归删除目录及目录里面内容

        -du 统计文件夹的大小信息

3、HDFS的API操作

        介绍:通过使用IDEA作为客户端来对HDFS进行操作

首先进行客户端的环境配置,下载hadoop-3.1.0的资料包,然后在本机系统变量中加入HADOOP_HOME环境变量。

 接着在IDEA中创建Maven工程,导入依赖和日志添加

        配置环境:在项目中的pom.xml文件中导入依赖


        8
        8
    
    
    
        
            org.apache.hadoop
            hadoop-client
            3.1.3
        
        
            junit
            junit
            4.12
        
        
            org.slf4j
            slf4j-log4j12
            1.7.30
        
    

        在项目的 src/main/resources 目录下,新建一个文件,命名为“log4j.properties”,在文件 中填入:

log4j.rootLogger=INFO, stdout 
log4j.appender.stdout=org.apache.log4j.ConsoleAppender 
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout 
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n 
log4j.appender.logfile=org.apache.log4j.FileAppender 
log4j.appender.logfile.File=target/spring.log 
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout 
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

        创建一个客户端的类对HDFS进行操作。下面是具体实际操作:

package cn.itjdb.hadoop;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;


import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.Arrays;



public class HDFSClient{

    private FileSystem fs;
    @Before
    public void init() throws URISyntaxException, IOException, InterruptedException {
        //连接集群的nn地址
        URI uri=new URI("hdfs://hadoop102:8020");
        //创建一个配置文件
        Configuration configuration=new Configuration();
        //用户
        String user="atguigu";
        //1、获取客户端对象
        fs=FileSystem.get(uri,configuration,user);
    }
    @After
    public void close() throws IOException {
        //3、关闭资源
        fs.close();
    }

    @Test
    public void testMkdir() throws  IOException{
        //2、执行相关操作,创建一个文件夹
        fs.mkdirs(new Path("/nihao/ceshi"));
    }

    //上传
    @Test
    public void testPut() throws IOException {
        //2、执行相关操作,上传文件
        //参数解读:参数1、表示删除原数据,参数2、表示是否允许覆盖,参数3、原数据路径(本地路径),参数4、目的地路径(下面的路径也可以写成:hdfs://hadoop102/nihao/ceshi)--->ctrl+p:查看方法参数
        fs.copyFromLocalFile(false,true,new Path("D:\input\inputflow\phone_data.txt"),new Path("/nihao/ceshi"));
    }

    //下载
    @Test
    public void testGet() throws IOException {
        //2、执行相关操作,下载文件
        //参数解读:参数1、源文件是否删除,参数2、源文件路径HDFS,参数3、目标地址路径win,参数4、是否开启文件校验(验证传输时数据是否丢失)
        fs.copyToLocalFile(false,new Path("/nihao/ceshi/phone_data.txt"),new Path("D:\input\inputflow\"),false);
    }

    //删除
    @Test
    public void testDelete() throws IOException {
        //2、执行相关操作,删除文件
        //参数解读:参数1、要删除的路径,参数2、表示是否要递归删除(就是文件夹中有多个文件,删除文件夹的时候使用递归删除)
        fs.delete(new Path("/nihao/ceshi/phone_data.txt"),false);
    }

    //文件的更名和移动
    @Test
    public void testmv() throws IOException {
        //2、执行相关操作,文件更名和移动 
        fs.rename(new Path("/inputfile/phone_data.txt"),new Path("/inputfile/phone_data2.txt"));
    }

    //获取文件详细信息
    @Test
    public void fileDetail() throws IOException {
        //获取所有文件信息,返回的是一个列表(在方法后面加上.var可以得到完整的方法返回)
        RemoteIterator locatedFileStatusRemoteIterator = fs.listFiles(new Path("/"), true);

        //遍历所有的文件,显示详情
        while (locatedFileStatusRemoteIterator.hasNext()){
            //此时获取每一个文件的详细信息
            LocatedFileStatus fileStatus = locatedFileStatusRemoteIterator.next();
            System.out.println("====================="+fileStatus.getPath()+"==================");  //得到文件路径
            System.out.println(fileStatus.getPermission());
            System.out.println(fileStatus.getOwner());
            System.out.println(fileStatus.getGroup());
            System.out.println(fileStatus.getLen());
            System.out.println(fileStatus.getModificationTime());
            System.out.println(fileStatus.getReplication());
            System.out.println(fileStatus.getBlockSize());
            System.out.println(fileStatus.getPath().getName());

            //获取文件内块的信息
            BlockLocation[] blockLocations = fileStatus.getBlockLocations();
            System.out.println(Arrays.toString(blockLocations));
        }
    }

    //文件夹判断
    @Test
    public void testFile() throws IOException {
        FileStatus[] fileStatuses = fs.listStatus(new Path("/"));

        //遍历输出
        for (FileStatus status:fileStatuses){
            if (status.isFile()){
                System.out.println("文件:"+status.getPath().getName());
            }else {
                System.out.println("目录:"+status.getPath().getName());
            }
        }

    }


}

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/487898.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号