只要学不死,就往死里学
2.spark概述 2.1.什么是sparkspark是基于内存的快速、通用、可扩展的大数据分析计算引擎。它的计算速度非常快。但是仅仅只涉及到数据的计算,并没有涉及到数据的存储。
2.2.为什么要学习spark运行速度比mapred
uce快很多
速度快(比mapreduce在内存中快100倍,在磁盘中快10倍)
spark中的job中间结果可以不落地,可以存放在内存中。 mapreduce中map和reduce任务都是以进程的方式运行着,而spark中的job是以线程方式运行在进程中
易用性(可以通过java/scala/python/R开发spark应用程序)
通用性(可以使用spark sql/spark streaming/MLlib/G



