原则:一个 core 一般分配 2~3 个 task,每一个 task 一般处理 1G 数据
提高并行度的方式:
sc.textFile(xx,minnumpartition) sc.parallelize(xx,num) sc.makeRDD(xx,num) sc.parallelizePairs(xx,num) reduceByKey,join,distinct repartition/coalesce spark.default.parallelism spark.sql.shuffle.partitions 自定义分区器 SparkStreaming: Direct 模式



