开源的 可靠的 可扩展的 分布式计算可解决的问题 海量数据存储 —— HDFS(分布式文件系统)
存海量数据 动态的添加机器,也可减少机器 备份,默认备份三份 快速自动恢复,当数据文件损坏时海量数据分析 —— mapreduce
海量 核心理念-- 分而治之对集群资源的管理和任务调度 —— yarn
资源管理(CPU、内存) 任务调度特点
扩容能力 成本低(普通机器) 高效率 可靠性(实时保证数据完整性,实时备份)背景
谷歌三大论文 GFS --HDFS mapreduce bigtable --Hbase应用场景
日志分析 推荐系统Hadoop的生态圈
HDFS分布式文件系统,生态圈的基础,保证数据正确存储 MapReduce分布式计算框架 Hbase实时分布式数据库,高速查询海量数据 ZooKeeper分布式协作服务,保证高可用性HA Sqoop数据库ETL,用来互相同步关系型数据库与分布式数据库 Flume日志收集, Hive数据仓库 Pig数据流处理 Mahout数据挖掘库 Ambari安装、部署、配置和管理工具



