HDFS:Hadoop的分布式文件存储系统。
MapReduce:Hadoop的分布式程序运算框架,也可以叫做一种编程模型。
Hive:基于Hadoop的类SQL数据仓库工具
Hbase:基于Hadoop的列式分布式NoSQL数据库
ZooKeeper:分布式协调服务组件
Mahout:基于MapReduce/Flink/Spark等分布式运算框架的机器学习算法库
Oozie/Azkaban:工作流调度引擎
Sqoop:数据迁入迁出工具
Flume:日志采集工具
flink 对标spark
netstat -ltp 查询
jps 查询pid
对照找到端口
相关服务接口地址
nodemanager hadoop101:8042
mapreduce 框架源码
4个节点 3个节点 2个任务
shuffle 排序
1.切片和maptask并行度决定机制
数据库 block 128M
数据切片是逻辑切片



