hdfs分布式存储数据的原理(hdfs使用)

本文章是配合厦门大学林子雨的《大数据技术原理与应用》使用的

本篇文章使用的环境如下:

虚拟机：Ubuntu 18.04 百度网盘地址Hadoop : hadoop 3.3.0 阿里云网盘地址迅雷网盘地址windows : win 10JDK ： 1.8 强烈建议是1.8 阿里云网盘地址迅雷网盘地址
JDK 已在windows中安装的，且非1.8的, 建议安装两个版本的 JDK (一个原有的，一个1.8) 0. 安装虚拟机后，配置网络

参考之前的文章

1. 在虚拟机伪分布式安装hadoop

参考林子雨老师的博客（安装 hadoop 3.1.3）
参考林子雨老师的博客（安装 hadoop 2.6.0）

1.1 在林子雨老师的博客下安装测试成功后，修改文件core-site.xml

下图中的192.168.X.X 是虚拟机的IP地址

2. 在windows中伪分布式安装Hadoop

此处注意 windows 和虚拟机中安装的hadoop必须是同一个版本
即版本号一致

2.1 解压文件至目录D:ServerHadoop

2.2 配置环境变量 2.2.1 WIN + I,弹出如下界面，选择系统

2.2.2

2.2.3

2.2.4 新建第一个系统变量

此处变量值为自己的hadoop解压出来的目录，输入完成后点击确定

点击确定后，再次点击2.2.3图中的新建，而后看2.2.5

2.2.5 新建第二个系统变量

此处注意变量值为虚拟机中用户名，若参考林老师的便是hadoop,否则是自己情况而定

2.2.6 点击确定

2.2.7 WIN + R ,输入cmd,回车，查看是否安装成功

输入如下命令

hadoop version

若显示如下图，便success，否则请自行百度查阅解决

2.4 查看bin目录下是否有hadoop.dll文件和winutils.exe文件

如果没有，请前往github下载，选择自己的hadoop版本下载，下载完成之后，将解压出来的属于自己版本的bin目录覆盖掉当前d:Serverhadoopbin目录

2.5 将hadoop.dll文件复制到C:windowssystem32目录下 2.6 重启计算机，必须重启 3. 确定本地windows是否可以访问到虚拟机中的HDFS 3.1 在虚拟机中通过命令ifconfig得到虚拟机IP地址

假设虚拟机IP地址是 192.168.246.6

3.2 在浏览器中输入 IP:9870 便可访问到虚拟机中HDFS

此处浏览器中输入 192.168.246.6:9870

4. 通过JAVA API 操作HDFS

hdfs分布式存储数据的原理(hdfs使用)

大数据系统相关栏目本月热门文章