Ubuntu下Hadoop环境搭建--伪分布与完全分布第一阶段考试总结

Hadoop 第一阶段考试总结

基础知识
Hadoop运行环境搭建
基础shell语法（杂项）
. 本地运行模式
. 伪分布式运行
. 完全分布式
. ssh免密登录
. hdfs与yarn的集群启动与关闭

基础知识 1. 存储单位按顺序给出数据存储单位:

Bit,Byte,KB,MB,GB,TB,PB,EB…

2.大数据特点

即4V
1.Volumn(大量)：⼀些⼤型企业的数据量已经接近EB量级；
2.Velocity(高速)：类比双十一瞬间处理的数据量；
3.Variety(多样性)：⾮结构化数据越来越多；
4.Value(低价值密度)：如何对有价值数据提纯成为⼤数据背景下需要解决的难题；

3.Hadoop

Hadoop是⼀个由Apache基⾦会所开发的分布式系统基础框架，主要解决海量数据的存储和海量数据的分析计算问题
Hadoop2.x :
MapReduce(计算) + Yarn(资源调度) + HDFS(数据存储) + Common(辅助⼯具)
hadoop的四个高
1.高可靠性
2.高拓展性
3.高容错性
4.高效性

4.HDFS架构

1. NameNode(NN)：存储⽂件的元数据，如⽂件名、⽂件⽬录结构、⽂件属性（⽣成时间、副本数、⽂件权限），以及每个⽂件的块列表和块所在的DataNode等注:元数据为描述存储⽂件的数据如⽂件存在哪有多⼤名字叫什么什么格式
有什么权限
2. DataNode(DN)：在本地⽂件系统存储⽂件块数据，以及块数据的校验
3. Secondary NameNode(2NN)：⽤来监控HDFS状态的辅助后台程序，每隔⼀段时间获取HDFS数据的快照。
4.Yarn MapReduce：架构略

Hadoop运行环境

环境简介：
Linux环境：Win10下VMware虚拟机Unbuntu20.04

1. JDK

学习通文件下载地址

查看java与hadoop是否配置成功方式：

java -version

hadoop version

基础语法

#基础语法
cd filepath
tar -zxvf filename /destFailePath
cd /etc/profile.d
vim java.sh



#配置java环境
export JAVA_HOME=/opt/jdk1.8
export PATH=$PATH:/opt/jdk1.8/bin



#运行
source /etc/profile

hadoop 基本类似同上

本地运行模式运行案例

#grep 案例

mkdir input
#input 文件事件放好
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+' 

#wordcount案例

mkdir wcinput
#wcinput 内部配置好文件
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput

伪分布环境搭建不会考，基础语法必考

#格式化namenode
bin/hdfs namenode -format
#启动namenode
sbin/hadoop-daemon.sh start namenode
#启动datanode
sbin/hadoop-daemon.sh start datanode
#启动yarn-resourcemanager
sbin/yarn-daemon.sh start resourcemaneger
#启动yarn-nodemanager
sbin/yarn-daemon.sh start nodemanager
#启动历史服务器
sbin/mr-jobhistory-daemon.sh start historyserver

查看项目	查看方法
history	IP:19888
namenode	IP:50070
yarn	IP:8088

启动服务基础操作

#run---mapreduce
#创建目录
bin/hdfs dfs -mkdir -p /user/root/input
#上传文件
bin/hdfs dfs -put srcfile /user/root/input
#启动wordcount
bin/hadoop jar share/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/root/input /user/root/output
#结果下载
bin/hdfs dfs -get /user/root/output/output-0x00000  localFilePath

完全分布式的集群部署规划

hadoop1	namenode datanode nodemanager
hadoop2	datanode resourcemanager datamanager
hadoop3	datanode secondarynamanode nodemanager

配置主机名称

vim /etc/hosts

ssh免密登录

#生成公钥 密钥
ssh-keygen -t rsa

#分发公钥
ssh-copy-id deasIp

集群群启动

#hdfs群启动
sbin/start-dfs.sh

#yarn群启动
sbin/start-yarn.sh

#hdfs群关闭
sbin/stop-dfs.sh

#yarn群关闭
sbin/stop-yarn.sh

Ubuntu下Hadoop环境搭建--伪分布与完全分布第一阶段考试总结

大数据系统相关栏目本月热门文章