第一周大数据学习笔记 2022年第10周

第一周大数据学习笔记 2022年第10周第一章大数据概况及Hadoop生态系统什么是大数据：大数据的定义:

大数据是一个描述大量高速，复杂和可变数据的术语，需要先进的技术来实现信息的捕获，存储，分发，管理和分析

大数据的特征:

4个V：Volume(体量)、Velocity(速度)、Variety（多样性）、Value（价值）

分别体现在数产生据的体量、数据生成，分析，移动的速度、数据格式的多样性、通过探索数据获得的知识价值

分布式运算平台-Hadoop

Hadoop生态：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tNEby1F1-1647175155915)(C:UserscxrAppDataRoamingTyporatypora-user-imagesimage-20220313201659405.png)]

Hadoop开发环境的搭建

主要流程就是在Linux环境下配置好jdk以及对应他的环境变量，解压你需要安装的 hadoop版本，进入etc/hadoop/修改配置文件，配置完后。
对HDFS文件系统进行格式化

hadoop namenode -format

启动hadoop和停止hadoop

start-dfs.sh 			#启动hdfs
start-yarn.sh 			#启动yarn，就是启动mapreduce+yarn 
start-all.sh 			#start-dfs.sh + start-yarn.sh

启动后输入jps如果NodeManager、ResourceManager 、SecondaryNameNode 、NameNode 、DataNode都有正常启动，则说明搭建完成

集群构建则是在上面的前提下对/etc/hosts映射关系、slaves（配置的是DataNode和NodeManager的地址）做更改

Hadoop的启动流程

1.加载fsimage的数据到内存中

2.将编辑日志的内容加载一遍

2.1之前有没有做过册除数据，修改副本块

2.2目的:保证namenode中的数据是最新的

3.Saving checkpoint:将fsimages和编辑日志合并。形成最新的fsimage.

4.Safe mode是否进入安全模式校验

4.1 ON:进入安全模式，客户端只能读HDFS，不能写，等待所有Datanode把数据抉汇报过来，跟namenode中比较是否一直的检查机制

4.2 OFF:离开安全模式，客户端可以正常操作HDFS

以及HDFS的规则和组成、其常用命令

NameNode ：管理文件系统命名空间、元数据、文件块存在的位置和信息，保存在fsimage和edit日志文件当中

Secondary NameNode：为NameNode执行备份工作，fsimage - > fsimage_dept>>，其中Secondary Namenode不可以替代Namenode

DataNode ：存储和处理数据

官方命令

che.org/docs/current/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html)

第一周 大数据学习笔记 2022年第10周