Spark的数据读取以及数据保存可以从两个维度来作区分:文件格式以及文件系统。
文件格式为:text文件、csv文件、sequence文件以及Object文件;
文件系统为:本地文件系统、HDFS、Hbase以及数据库
text文件读文件:textFile
存文件:saveAsTextFile
sequence文件SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)
存文件:saveAsSequenceFile(“output”)
读文件:sequenceFileInt,Int.collect().foreach(println)
object对象文件对象文件是将对象序列化后保存的文件,采用Java的序列化机制。可以通过objectFile[T:ClassTag] (path)函数接收一个路径,读取对象文件,返回对应的RDD,也可以通过调用savaAsObjectFile()实现对对象文件的输出、因为是序列化所以指定类型
存文件:saveAsObjectFile(“output”)
读文件:objectFileInt.collect().foreach(println)



