栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

大数据实验1: Hadoop, Scala, Spark的安装

大数据实验1: Hadoop, Scala, Spark的安装

本文持续更新ing...
  • 安装Hadoop
  • 安装Scala
  • 安装Spark
    • Why Spark?

安装Hadoop

参考:https://www.cnblogs.com/wuxun1997/p/6847950.html
Win环境下Hadoop的bin工具下载:https://github.com/Qinzixin/winutils
安装完成后,localhost:8080可见:

踩坑:jps找不到Data Node,打不开localhost:50070
出现如下报错:java.lang.UnsatisfiedlinkError…
问题原因:Java必须是64位的
解决方式:重新装Java环境,并修改hadoop_env.cmd中的JAVA_HOME路径。
重新安装之后:

安装Scala

安装scala插件:
https://www.jetbrains.com/help/idea/2017.1/creating-and-running-your-scala-application.html
https://www.jetbrains.com/help/idea/2017.1/enabling-and-disabling-plugins.html
直接在应用市场安装会network error,所以需要自行下载:
https://plugins.jetbrains.com/plugin/1347-scala/versions/stable
先打开IDEA的目的是获取匹配的scala版本号,之后根据这个教程手动导入即可:
https://www.cnblogs.com/zhaojinyan/p/9524296.html

安装Spark

必须按照Hadoop, Scala, Spark的顺序安装
必须使用64位的JDK
如果用IDEA,必须使用付费版(Ultimate)
安装教程参考:https://blog.csdn.net/haijiege/article/details/80775792
在Windows下单机模式跑,需要修改命令行参数和源码中NativeIO类的定义

Why Spark?

Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

HadoopSpark
发源于YahooBerkley
语言JavaScala
组件MapReduce, Hbase, HDFSSpark Core, Spark SQL, Spark Stream
应用场景基于MapReduce,适用于循环迭代类型数据处理针对机器学习算法,进行针对性计算优化,单元缩小到RDD模型
多个作业之间的数据通信问题基于磁盘基于内存

在实际的生产环境中,由于内存的限制,可能会由于内存资源不够导致 Job 执行失败,此时,MapReduce 其实是一个更好的选择,所以Spark并不能完全替代 MapReduce

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/583235.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号