- 基础知识
- Hadoop运行环境搭建
- 基础shell语法(杂项)
. 本地运行模式
. 伪分布式运行
. 完全分布式
. ssh免密登录
. hdfs与yarn的集群启动与关闭
2.大数据特点Bit,Byte,KB,MB,GB,TB,PB,EB…
3.Hadoop即4V
1.Volumn(大量):⼀些⼤型企业的数据量已经接近EB量级;
2.Velocity(高速):类比双十一瞬间处理的数据量;
3.Variety(多样性):⾮结构化数据越来越多;
4.Value(低价值密度):如何对有价值数据提纯成为⼤数据背景下需要解决的难题;
4.HDFS架构Hadoop是⼀个由Apache基⾦会所开发的分布式系统基础框架,主要解决海量数据的存储和海量数据的分析计算问题
Hadoop2.x :
MapReduce(计算) + Yarn(资源调度) + HDFS(数据存储) + Common(辅助⼯具)
hadoop的四个高
1.高可靠性
2.高拓展性
3.高容错性
4.高效性
Hadoop运行环境1. NameNode(NN):存储⽂件的元数据,如⽂件名、⽂件⽬录结构、⽂件属性(⽣成时间、副本数、⽂件权 限),以及每个⽂件的块列表和块所在的DataNode等 注:元数据为描述存储⽂件的数据 如⽂件存在哪 有多⼤ 名字叫什么 什么格式
有什么权限
2. DataNode(DN): 在本地⽂件系统存储⽂件块数据,以及块数据的校验
3. Secondary NameNode(2NN):⽤来监控HDFS状态的辅助后台程序,每隔⼀段时间获取HDFS数据的快 照。
4.Yarn MapReduce:架构略
环境简介:
Linux环境:Win10下VMware虚拟机Unbuntu20.04
学习通文件下载地址
查看java与hadoop是否配置成功方式:
java -version hadoop version
基础语法
#基础语法 cd filepath tar -zxvf filename /destFailePath cd /etc/profile.d vim java.sh #配置java环境 export JAVA_HOME=/opt/jdk1.8 export PATH=$PATH:/opt/jdk1.8/bin #运行 source /etc/profile
hadoop 基本类似同上
本地运行模式运行案例#grep 案例 mkdir input #input 文件事件放好 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+' #wordcount案例 mkdir wcinput #wcinput 内部配置好文件 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput伪分布环境搭建不会考,基础语法必考
#格式化namenode bin/hdfs namenode -format #启动namenode sbin/hadoop-daemon.sh start namenode #启动datanode sbin/hadoop-daemon.sh start datanode #启动yarn-resourcemanager sbin/yarn-daemon.sh start resourcemaneger #启动yarn-nodemanager sbin/yarn-daemon.sh start nodemanager #启动历史服务器 sbin/mr-jobhistory-daemon.sh start historyserver
| 查看项目 | 查看方法 |
|---|---|
| history | IP:19888 |
| namenode | IP:50070 |
| yarn | IP:8088 |
#run---mapreduce #创建目录 bin/hdfs dfs -mkdir -p /user/root/input #上传文件 bin/hdfs dfs -put srcfile /user/root/input #启动wordcount bin/hadoop jar share/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/root/input /user/root/output #结果下载 bin/hdfs dfs -get /user/root/output/output-0x00000 localFilePath完全分布式的集群部署规划
| hadoop1 | namenode datanode nodemanager |
|---|---|
| hadoop2 | datanode resourcemanager datamanager |
| hadoop3 | datanode secondarynamanode nodemanager |
vim /etc/hostsssh免密登录
#生成公钥 密钥 ssh-keygen -t rsa #分发公钥 ssh-copy-id deasIp集群群启动
#hdfs群启动 sbin/start-dfs.sh #yarn群启动 sbin/start-yarn.sh #hdfs群关闭 sbin/stop-dfs.sh #yarn群关闭 sbin/stop-yarn.sh



