Hadoop2.0_大数据系统

Hadoop2.0

目前的大数据技术架构

目前的大数据技术架构的不足

ü缺少真正意义上的流式场景的计算模型，目前都通过降低oozie定时调度的时长，而且hadoop是批处理技术模型，处理流式场景的应用，效率很低。

ü在数据挖掘场景上，mahout虽然支持很多数据挖掘算法，但大多数数据挖掘算法都迭代计算的，mahout是基于mapreduce的，每次迭代都要将结果存储在hdfs中，所以在处理速度上还是可以提升的。

ü目前大数据技术是基于hadoop1.X之上构建，hadoop是非常优秀批处理技术模型，与其他计算模型整合很难，比如：流式计算模型Storm。需要一种能整合多种计算模型的架构，来统一调度集群的资源，如：cpu、内存。

ü目前hive和impala版本有些低了，新版本hive和impala性能和稳定性提升不少。

目前的大数据架构

Hadoop2.0两个最大改进

1. 集群资源调用框架YARN，已经集成多种计算模型。

2. HDFS Federation 架构提升hdfs扩展性，解决了namenode的单点问题。

Yarn可以管理多种大数据计算模型，比如：流式计算和hadoop的批处理计算可以在cluster内共同执行。

YARN软件架构

YARN资源调度

üspark是一种与hadoop相似的开源集群，spark引进了内存集群计算的概念，可在内存集群计算中将数据集缓存在内存中，以缩短访问延迟，减少磁盘IO开销。

üspark可以无缝的和hdfs结合

ü可以直接调用hadoop中inputformat/outputformat

ü已经成为大数据行业中支撑数据挖掘的关键技术

Shark

像hive一样可以通过sqlquery生成spark的job在集群中执行

Spark Ecosystem对数据挖掘技术支持

üMLbase是基于Spark的机器学习算法库。

üGraphx是基于spark的图计算引擎。

üTachyon在hdfs构建在上的基于内存的分布式文件系统，实现了hdfs接口可以和hadoop无缝的集成。

ü计算模型和存储都基于内存，可以实现一些复杂业务场景。

新的大数据架构技术架构

Hadoop2.0