大数据实验1： Hadoop, Scala, Spark的安装

本文持续更新ing...

安装Hadoop
安装Scala
安装Spark
- Why Spark?

安装Hadoop

参考：https://www.cnblogs.com/wuxun1997/p/6847950.html
Win环境下Hadoop的bin工具下载：https://github.com/Qinzixin/winutils
安装完成后，localhost:8080可见：

踩坑：jps找不到Data Node，打不开localhost:50070
出现如下报错：java.lang.UnsatisfiedlinkError…
问题原因：Java必须是64位的
解决方式：重新装Java环境，并修改hadoop_env.cmd中的JAVA_HOME路径。
重新安装之后：

安装Scala

安装scala插件：
https://www.jetbrains.com/help/idea/2017.1/creating-and-running-your-scala-application.html
https://www.jetbrains.com/help/idea/2017.1/enabling-and-disabling-plugins.html
直接在应用市场安装会network error，所以需要自行下载：
https://plugins.jetbrains.com/plugin/1347-scala/versions/stable
先打开IDEA的目的是获取匹配的scala版本号，之后根据这个教程手动导入即可：
https://www.cnblogs.com/zhaojinyan/p/9524296.html

安装Spark

必须按照Hadoop, Scala, Spark的顺序安装
必须使用64位的JDK
如果用IDEA，必须使用付费版(Ultimate)
安装教程参考：https://blog.csdn.net/haijiege/article/details/80775792
在Windows下单机模式跑，需要修改命令行参数和源码中NativeIO类的定义

Why Spark?

Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

	Hadoop	Spark
发源于	Yahoo	Berkley
语言	Java	Scala
组件	MapReduce, Hbase, HDFS	Spark Core, Spark SQL, Spark Stream
应用场景	基于MapReduce，适用于循环迭代类型数据处理	针对机器学习算法，进行针对性计算优化，单元缩小到RDD模型
多个作业之间的数据通信问题	基于磁盘	基于内存

在实际的生产环境中，由于内存的限制，可能会由于内存资源不够导致 Job 执行失败，此时，MapReduce 其实是一个更好的选择，所以Spark并不能完全替代 MapReduce

大数据实验1： Hadoop, Scala, Spark的安装

大数据系统相关栏目本月热门文章