栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

hadoop概述2021-10-08

hadoop概述2021-10-08

什么是hadoop
	开源的
	可靠的
	可扩展的
	分布式计算
可解决的问题 海量数据存储 —— HDFS(分布式文件系统)
	存海量数据
	动态的添加机器,也可减少机器
	备份,默认备份三份
	快速自动恢复,当数据文件损坏时
海量数据分析 —— mapreduce
	海量
	核心理念--	分而治之
对集群资源的管理和任务调度 —— yarn
	资源管理(CPU、内存)
	任务调度
特点
	扩容能力
	成本低(普通机器)
	高效率
	可靠性(实时保证数据完整性,实时备份)
背景
	谷歌三大论文
			GFS			--HDFS
			mapreduce
			bigtable		--Hbase
应用场景
	日志分析
	推荐系统
Hadoop的生态圈
	HDFS分布式文件系统,生态圈的基础,保证数据正确存储
	MapReduce分布式计算框架
	Hbase实时分布式数据库,高速查询海量数据
	ZooKeeper分布式协作服务,保证高可用性HA
	Sqoop数据库ETL,用来互相同步关系型数据库与分布式数据库
	Flume日志收集,
	Hive数据仓库
	Pig数据流处理
	Mahout数据挖掘库
	Ambari安装、部署、配置和管理工具
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/303630.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号