栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Ubuntu下Hadoop环境搭建--伪分布与完全分布第一阶段考试总结

Ubuntu下Hadoop环境搭建--伪分布与完全分布第一阶段考试总结

Hadoop 第一阶段考试总结
  1. 基础知识
  2. Hadoop运行环境搭建
  3. 基础shell语法(杂项)
    . 本地运行模式
    . 伪分布式运行
    . 完全分布式
    . ssh免密登录
    . hdfs与yarn的集群启动与关闭
基础知识 1. 存储单位 按顺序给出数据存储单位:

Bit,Byte,KB,MB,GB,TB,PB,EB…

2.大数据特点

即4V
1.Volumn(大量):⼀些⼤型企业的数据量已经接近EB量级;
2.Velocity(高速):类比双十一瞬间处理的数据量;
3.Variety(多样性):⾮结构化数据越来越多;
4.Value(低价值密度):如何对有价值数据提纯成为⼤数据背景下需要解决的难题;

3.Hadoop

Hadoop是⼀个由Apache基⾦会所开发的分布式系统基础框架,主要解决海量数据的存储和海量数据的分析计算问题
Hadoop2.x :
MapReduce(计算) + Yarn(资源调度) + HDFS(数据存储) + Common(辅助⼯具)
hadoop的四个高
1.高可靠性
2.高拓展性
3.高容错性
4.高效性

4.HDFS架构

1. NameNode(NN):存储⽂件的元数据,如⽂件名、⽂件⽬录结构、⽂件属性(⽣成时间、副本数、⽂件权 限),以及每个⽂件的块列表和块所在的DataNode等 注:元数据为描述存储⽂件的数据 如⽂件存在哪 有多⼤ 名字叫什么 什么格式
有什么权限
2. DataNode(DN): 在本地⽂件系统存储⽂件块数据,以及块数据的校验
3. Secondary NameNode(2NN):⽤来监控HDFS状态的辅助后台程序,每隔⼀段时间获取HDFS数据的快 照。
4.Yarn MapReduce:架构略

Hadoop运行环境

环境简介:
Linux环境:Win10下VMware虚拟机Unbuntu20.04

1. JDK

学习通文件下载地址

查看java与hadoop是否配置成功方式:

java -version

hadoop version

基础语法

#基础语法
cd filepath
tar -zxvf filename /destFailePath
cd /etc/profile.d
vim java.sh



#配置java环境
export JAVA_HOME=/opt/jdk1.8
export PATH=$PATH:/opt/jdk1.8/bin



#运行
source /etc/profile

hadoop 基本类似同上

本地运行模式运行案例
#grep 案例

mkdir input
#input 文件事件放好
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+' 

#wordcount案例

mkdir wcinput
#wcinput 内部配置好文件
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput
伪分布环境搭建不会考,基础语法必考
#格式化namenode
bin/hdfs namenode -format
#启动namenode
sbin/hadoop-daemon.sh start namenode
#启动datanode
sbin/hadoop-daemon.sh start datanode
#启动yarn-resourcemanager
sbin/yarn-daemon.sh start resourcemaneger
#启动yarn-nodemanager
sbin/yarn-daemon.sh start nodemanager
#启动历史服务器
sbin/mr-jobhistory-daemon.sh start historyserver
查看项目查看方法
historyIP:19888
namenodeIP:50070
yarnIP:8088
启动服务基础操作
#run---mapreduce
#创建目录
bin/hdfs dfs -mkdir -p /user/root/input
#上传文件
bin/hdfs dfs -put srcfile /user/root/input
#启动wordcount
bin/hadoop jar share/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/root/input /user/root/output
#结果下载
bin/hdfs dfs -get /user/root/output/output-0x00000  localFilePath
完全分布式的集群部署规划
hadoop1namenode datanode nodemanager
hadoop2datanode resourcemanager datamanager
hadoop3datanode secondarynamanode nodemanager
配置主机名称
vim /etc/hosts
ssh免密登录
#生成公钥 密钥
ssh-keygen -t rsa

#分发公钥
ssh-copy-id deasIp
集群群启动
#hdfs群启动
sbin/start-dfs.sh

#yarn群启动
sbin/start-yarn.sh

#hdfs群关闭
sbin/stop-dfs.sh

#yarn群关闭
sbin/stop-yarn.sh
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/327073.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号