栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Hadoop2.0

Hadoop2.0

目前的大数据技术架构

目前的大数据技术架构的不足

ü缺少真正意义上的流式场景的计算模型,目前都通过降低oozie定时调度的时长,而且hadoop是批处理技术模型,处理流式场景的应用,效率很低。

ü在数据挖掘场景上,mahout虽然支持很多数据挖掘算法,但大多数数据挖掘算法都迭代计算的,mahout是基于mapreduce的,每次迭代都要将结果存储在hdfs中,所以在处理速度上还是可以提升的。

ü目前大数据技术是基于hadoop1.X之上构建,hadoop是非常优秀批处理技术模型,与其他计算模型整合很难,比如:流式计算模型Storm。需要一种能整合多种计算模型的架构,来统一调度集群的资源,如:cpu、内存。

ü目前hive和impala版本有些低了,新版本hive和impala性能和稳定性提升不少。

目前的大数据架构

Hadoop2.0两个最大改进

1. 集群资源调用框架YARN,已经集成多种计算模型。

2. HDFS Federation 架构提升hdfs扩展性,解决了namenode的单点问题。

Yarn可以管理多种大数据计算模型,比如:流式计算和hadoop的批处理计算可以在cluster内共同执行。

YARN软件架构

YARN资源调度

üspark是一种与hadoop相似的开源集群,spark引进了内存集群计算的概念,可在内存集群计算中将数据集缓存在内存中,以缩短访问延迟,减少磁盘IO开销。

üspark可以无缝的和hdfs结合

ü可以直接调用hadoop中inputformat/outputformat

ü已经成为大数据行业中支撑数据挖掘的关键技术

Shark

像hive一样可以通过sqlquery生成spark的job在集群中执行

Spark Ecosystem对数据挖掘技术支持

üMLbase是基于Spark的机器学习算法库。

üGraphx是基于spark的图计算引擎。

üTachyon在hdfs构建在上的基于内存的分布式文件系统,实现了hdfs接口可以和hadoop无缝的集成。

ü计算模型和存储都基于内存,可以实现一些复杂业务场景。

新的大数据架构技术架构

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/736362.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号