- 从文件系统中加载
- 通过并行集合(数组)
- 本地文件系统
- HDFS
使用方法 - 云端
使用方法
转换类型操作:只记录转换的轨迹,不发生计算。
常用转换操作
-
filter:筛取关键词
-
map
拆分空格 -
flatMap
所有单词的集合 -
groupByKey
-
reduceByKey
- count
- collect
- first
- reduce
- foreach:遍历
重复使用,缓存到内存
persist():将一个RDD标记为持久化(并未生成执行,执行动作类型操作后真正持久化)
-
MEMORY_onLY = cache
内存不足,替换内容 -
MEMORY_AND_DISK
内存不足存放磁盘
unpersist():释放
分区- 增加并行度,实现分布式计算
- 减少通信开销
分区原则:分区个数 = 集群中CPU核心个数
语法
自定义分区方法
- 继承org.apache.spark.Partitioner
- numPartitions:Int 返回创建出来的分区数
- getPartition(key:Any):Int 返回给定键的分区变化(0—numPartitions-1)
- equals()判断相等性
键值对
取出12345…



