栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

第一周 大数据学习笔记 2022年第10周

第一周 大数据学习笔记 2022年第10周

第一周 大数据学习笔记 2022年第10周 第一章 大数据概况及Hadoop生态系统 什么是大数据: 大数据的定义:

大数据是一个描述大量高速,复杂和可变数据的术语,需要先进的技术来实现信息的捕获,存储,分发,管理和分析

大数据的特征:

4个V:Volume(体量)、Velocity(速度)、Variety(多样性)、Value(价值)

分别体现在数产生据的体量、数据生成,分析,移动的速度、数据格式的多样性、通过探索数据获得的知识价值

分布式运算平台-Hadoop

Hadoop生态:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tNEby1F1-1647175155915)(C:UserscxrAppDataRoamingTyporatypora-user-imagesimage-20220313201659405.png)]

Hadoop开发环境的搭建

主要流程就是在Linux环境下配置好jdk以及对应他的环境变量,解压你需要安装的 hadoop版本,进入etc/hadoop/修改配置文件,配置完后。
对HDFS文件系统进行格式化

hadoop namenode -format

启动hadoop和停止hadoop

start-dfs.sh 			#启动hdfs
start-yarn.sh 			#启动yarn,就是启动mapreduce+yarn 
start-all.sh 			#start-dfs.sh + start-yarn.sh

启动后输入jps如果NodeManager、ResourceManager 、SecondaryNameNode 、NameNode 、DataNode都有正常启动,则说明搭建完成

集群构建则是在上面的前提下对/etc/hosts映射关系、slaves(配置的是DataNode和NodeManager的地址)做更改

Hadoop的启动流程

1.加载fsimage的数据到内存中

2.将编辑日志的内容加载一遍

​ 2.1之前有没有做过册除数据,修改副本块

​ 2.2目的:保证namenode中的数据是最新的

3.Saving checkpoint:将fsimages和编辑日志合并。形成最新的fsimage.

4.Safe mode是否进入安全模式校验

​ 4.1 ON:进入安全模式,客户端只能读HDFS,不能写,等待所有Datanode把数据抉汇报过来,跟namenode中比较是否一直的检查机制

​ 4.2 OFF:离开安全模式,客户端可以正常操作HDFS

以及HDFS的规则和组成、其常用命令

NameNode :管理文件系统命名空间、元数据、文件块存在的位置和信息,保存在fsimage和edit日志文件当中

Secondary NameNode:为NameNode执行备份工作,fsimage - > fsimage_dept>>,其中Secondary Namenode不可以替代Namenode

DataNode :存储和处理数据

官方命令

che.org/docs/current/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html)

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/761850.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号