package com.bigdata.spark.core.rdd.builder
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object Parallelize {
def main(args: Array[String]): Unit = {
// TODO 环境准备
val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("rdd_parallelize")
// 自己配置并行度
// conf.set( "spark.default.parallelism", "5" )
val sc = new SparkContext(conf)
// TODO 数据处理
val rdd: RDD[Int] = sc.makeRDD( List(1, 2, 3, 4) )
// 第二个参数为分区数量
val rddPartition: RDD[Int] = sc.makeRDD( List(1, 2, 3, 4), 3 )
val rddFromFile: RDD[String] = sc.textFile("datas/1.txt")
val rddFromFilePartition: RDD[String] = sc.textFile("datas/1.txt",2)
// 将处理的数据保存成分区文件
rddFromFile.saveAsTextFile("output")
// TODO 关闭环境
sc.stop()
}
}