栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

【回顾】Spark项目工程搭建

【回顾】Spark项目工程搭建

文章目录
  • 一、新建项目
  • 二、配置Maven环境
  • 三、配置Scala环境
  • 四、测试准备
  • 五、词频统计测试


资源下载:

IntelliJ IDEA Community Edition 2021.2.3:https://www.jetbrains.com/idea/download/other.html
Maven 3.5.4:https://archive.apache.org/dist/maven/maven-3/
Spark 2.4.2:http://archive.apache.org/dist/spark/
Scala 2.12.2:https://www.scala-lang.org/download/all.html
Hadoop 2.6.0:https://archive.apache.org/dist/hadoop/common/


一、新建项目
  • New Project 新建项目
  • 选择Maven工程,Next
  • 自定义项目名称,及项目存储的位置,Finish即可完成新项目的创建

返回顶部


二、配置Maven环境
  • File下找到setting,在搜索栏中查找maven
  • 修改Maven home path、User settings file、Local repository三个文件路径(要勾中Override),修改完后Applay即可
  • 配置完Maven后,打开右侧的Maven工具栏,如果此处有报错(红色波浪线),点击循环按钮刷新一下,等待几分钟即可;如果还是有报错,可能Mavend的配置存在问题,进行复查
  • 如下是pom.xml依赖配置文件,可以自行复制
	
	
	    4.0.0
	
	    org.example
	    Spark
	    1.0-SNAPSHOT
	
	    
	        2.12.2
	        2.4.2
	        2.6.0
	        8
	        8
	    
	
	    
	    
	        
	            nexus-aliyun
	            Nexus aliyun
	            http://maven.aliyun.com/nexus/content/groups/public
	        
	    
	
	    
	        
	        
	            org.scala-lang
	            scala-library
	            ${scala.version}
	        
	        
	        
	            org.apache.spark
	            spark-core_2.12
	            ${spark.version}
	        
	        
	        
	            org.apache.spark
	            spark-sql_2.12
	            ${spark.version}
	        
	        
	        
	            org.apache.hadoop
	            hadoop-client
	            ${hadoop.version}
	        
	        
	        
	            org.apache.hadoop
	            hadoop-hdfs
	            ${hadoop.version}
	        
	        
	        
	            log4j
	            log4j
	            1.2.12
	        
	    
	
	    
	        
	
	            
	                org.apache.maven.plugins
	                maven-compiler-plugin
	                3.0
	                
	                    1.8
	                    1.8
	                    UTF-8
	                
	            
	
	            
	                net.alchim31.maven
	                scala-maven-plugin
	                3.2.0
	                
	                    
	                        
	                            compile
	                            testCompile
	                        
	                        
	                            
	                                -dependencyfile
	                                ${project.build.directory}/.scala_dependencies
	                            
	                        
	                    
	                
	            
	            
	                org.apache.maven.plugins
	                maven-shade-plugin
	                3.1.1
	                
	                    
	                        package
	                        
	                            shade
	                        
	                        
	                            
	                                
	                                    *:*
	                                    
	                                        meta-INF/*.SF
	                                        meta-INF/*.DSA
	                                        meta-INF/*.RSA
	                                    
	                                
	                            
	                            
	                                
	                                    
	                                
	                            
	                        
	                    
	                
	            
	        
	    
	
  • 导入依赖配置文件后,需要点击如图所示的图标进行依赖的导入下载(所有的依赖资源将会下载到Maven配置中的Local repository目录中),下载完成后可以再次刷新,不再报错即可

返回顶部


三、配置Scala环境
  • 对于scala语言的支持,ideal中需要借助插件 Scala,在setting中打开plugins,搜索scala下载即可,下载完成后需要重启ideal
  • 重启完成后,右击项目选择Add framework Support,添加项目支持框架
  • 选择scala,在右侧点击Create,弹框中可以选择Download在线下载,也可以选择Browse…,浏览找到自己下载好的scala
  • 选择好之后,ok即可完成Scala的环境配置

    返回顶部

四、测试准备
  • 在项目中如图所示位置创建新的scala文件夹,test中同样创建scala文件夹,右击Mark Directory as,将其分别注为Sources Root、Test Sources Root
  • 标注完成后,右击scala文件夹创建Scala Class文件进行编程测试
  • 上半部分图中没有出现Scala Class的原因有:没有配置scala环境、没有对scala文件进行标注

返回顶部


五、词频统计测试
  • 右击创建WordCount.scala文件
package wordCount

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object WordCount {

  def main(args: Array[String]): Unit = {
    // 创建sparkContext  --- 本地模式运行
    val conf = new SparkConf().setAppName("wordCount").setMaster("local[6]")
    val sc = new SparkContext(conf)

    // 加载文件
    val context: RDD[String] = sc.textFile("G:\Projects\IdealProject-C21\projects\src\main\scala\wordCount\test.txt")

    // 数据处理
    val split: RDD[String] = context.flatMap(item => item.split(" "))
    val count: RDD[(String, Int)] = split.map(item => (item, 1))
    val reduce = count.reduceByKey((curr, agg) => curr + agg)
    val result = reduce.collect()
    result.foreach(println(_))
  }

}

返回顶部


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/677048.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号