栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

大数据 学习笔记1

大数据 学习笔记1

路线
  1. hadoop 高效计算
  2. spark 内存级引擎 数据挖掘与机器学习利器
  3. flink 大数据计算引擎
特点
  1. 大量 TB
  2. 快速
  3. 低价值密度 提纯
  4. 多样 结构化、非结构化
hadoop

分布式系统基础架构

解决

海量数据存储
海量数据分析计算

优势
  1. 高可靠性 维护多个副本
  2. 高扩展性 动态扩展节点
  3. 高效性 并行工作
  4. 高容错性 将失败的任务重新分配

Hadoop Distributed file System HDFS 分布式文件系统

解决海量数据存储问题,适合一次写入多次多出的场景

组成
  1. nameNode(nn)存储文件的元数据
  2. dataNode 本地文件系统系统文件块数据
  3. Secondary NameNode 每隔一段时间对nameNode元数据备份,分担nameNode工作量如:定期合并Fsimage和Edits
  4. mapReduce 计算 分为map reduce ,map阶段并行输入数据,reduce对map结果汇总
  5. client 文件切分、与NameNode交互、与DataNode交互、管理HDFS
HDFS文件块大小block

配置dfs.block控制大小 默认128M。
寻址时间为纯属时间的1%为最佳状态

读写流程 写数据

读数据流程

nameNode工作机制

Fsimage 和Edits

Fsimage文件:一个永久性的检查点

checkPoint时间机制 掉线时限参数设置 网络拓扑 节点距离

节点距离:两个节点到达共同祖先的距离和

机架感知

副本节点的选择

mapReduce 序列化 输入数据 inputFormat Shuffle OutFormat Join ETL 压缩

p68

扩展

GFS-》HDFS
Map-Reduce->MR
BigTable->Hbase

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/630254.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号