大数据是一个描述大量高速,复杂和可变数据的术语,需要先进的技术来实现信息的捕获,存储,分发,管理和分析
大数据的特征:4个V:Volume(体量)、Velocity(速度)、Variety(多样性)、Value(价值)
分别体现在数产生据的体量、数据生成,分析,移动的速度、数据格式的多样性、通过探索数据获得的知识价值
分布式运算平台-Hadoop
Hadoop生态:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tNEby1F1-1647175155915)(C:UserscxrAppDataRoamingTyporatypora-user-imagesimage-20220313201659405.png)]
Hadoop开发环境的搭建主要流程就是在Linux环境下配置好jdk以及对应他的环境变量,解压你需要安装的 hadoop版本,进入etc/hadoop/修改配置文件,配置完后。
对HDFS文件系统进行格式化
hadoop namenode -format
启动hadoop和停止hadoop
start-dfs.sh #启动hdfs start-yarn.sh #启动yarn,就是启动mapreduce+yarn start-all.sh #start-dfs.sh + start-yarn.sh
启动后输入jps如果NodeManager、ResourceManager 、SecondaryNameNode 、NameNode 、DataNode都有正常启动,则说明搭建完成
集群构建则是在上面的前提下对/etc/hosts映射关系、slaves(配置的是DataNode和NodeManager的地址)做更改
Hadoop的启动流程1.加载fsimage的数据到内存中
2.将编辑日志的内容加载一遍
2.1之前有没有做过册除数据,修改副本块
2.2目的:保证namenode中的数据是最新的
3.Saving checkpoint:将fsimages和编辑日志合并。形成最新的fsimage.
4.Safe mode是否进入安全模式校验
4.1 ON:进入安全模式,客户端只能读HDFS,不能写,等待所有Datanode把数据抉汇报过来,跟namenode中比较是否一直的检查机制
4.2 OFF:离开安全模式,客户端可以正常操作HDFS
以及HDFS的规则和组成、其常用命令NameNode :管理文件系统命名空间、元数据、文件块存在的位置和信息,保存在fsimage和edit日志文件当中
Secondary NameNode:为NameNode执行备份工作,fsimage - > fsimage_dept>>,其中Secondary Namenode不可以替代Namenode
DataNode :存储和处理数据
官方命令
che.org/docs/current/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html)



