学习致谢
https://www.bilibili.com/video/BV1Xz4y1m7cv?p=54
Spark 2.0开始,SparkSession取代了原本的SQLContext与HiveContext作为SparkSQL应用程序的入口,可以加载不同数据源的数据,封装到Dataframe/Dataset集合数据结构中,使得编程更加简单,程序运行更加快速高效。注意原本的SQLContext与HiveContext仍然保留,以支持向下兼容。
http://spark.apache.org/docs/latest/sql-getting-started.html#starting-point-sparksession
pom依赖
代码实现org.apache.spark spark-sql_2.12 2.4.5
package sql
import org.apache.spark.sql.{Dataframe, Dataset, SparkSession}
object Demo01 {
def main(args: Array[String]): Unit = {
//TODO 0.准备环境
val spark = SparkSession.builder().appName("sparksql").master("local[*]").getOrCreate()
//TODO 1.加载数据
val df1:Dataframe = spark.read.text("data/SogouE.txt")
val df2:Dataframe = spark.read.json("data/SogouE.json")
val df3:Dataframe = spark.read.csv("data/SogouE.csv")
//TODO 2.处理数据
//TODO 3.输出数据
df1.printSchema()
df2.printSchema()
df3.printSchema()
df1.show()
df2.show()
df3.show()
//TODO 4.关闭资源
}
}
演示
1.txt
2.json
3.csv
分布式表



