- 安装Hadoop
- 安装Scala
- 安装Spark
- Why Spark?
参考:https://www.cnblogs.com/wuxun1997/p/6847950.html
Win环境下Hadoop的bin工具下载:https://github.com/Qinzixin/winutils
安装完成后,localhost:8080可见:
踩坑:jps找不到Data Node,打不开localhost:50070
出现如下报错:java.lang.UnsatisfiedlinkError…
问题原因:Java必须是64位的
解决方式:重新装Java环境,并修改hadoop_env.cmd中的JAVA_HOME路径。
重新安装之后:
安装scala插件:
https://www.jetbrains.com/help/idea/2017.1/creating-and-running-your-scala-application.html
https://www.jetbrains.com/help/idea/2017.1/enabling-and-disabling-plugins.html
直接在应用市场安装会network error,所以需要自行下载:
https://plugins.jetbrains.com/plugin/1347-scala/versions/stable
先打开IDEA的目的是获取匹配的scala版本号,之后根据这个教程手动导入即可:
https://www.cnblogs.com/zhaojinyan/p/9524296.html
必须按照Hadoop, Scala, Spark的顺序安装
必须使用64位的JDK
如果用IDEA,必须使用付费版(Ultimate)
安装教程参考:https://blog.csdn.net/haijiege/article/details/80775792
在Windows下单机模式跑,需要修改命令行参数和源码中NativeIO类的定义
Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。
| Hadoop | Spark | |
|---|---|---|
| 发源于 | Yahoo | Berkley |
| 语言 | Java | Scala |
| 组件 | MapReduce, Hbase, HDFS | Spark Core, Spark SQL, Spark Stream |
| 应用场景 | 基于MapReduce,适用于循环迭代类型数据处理 | 针对机器学习算法,进行针对性计算优化,单元缩小到RDD模型 |
| 多个作业之间的数据通信问题 | 基于磁盘 | 基于内存 |
在实际的生产环境中,由于内存的限制,可能会由于内存资源不够导致 Job 执行失败,此时,MapReduce 其实是一个更好的选择,所以Spark并不能完全替代 MapReduce



