【时间】2021.12.01
【题目】【Spark入门(3)】SparkSQL基础
目录
一、引言
二、一些重点图
1、RDD与Dataframe
2、RDD、DF、DS三者的相互转换
3、SparkSQL核心编程例子
4、一个UDAF的例子(实现计算平均年龄)
三、思维导图
一、引言
本文是课程尚硅谷大数据Spark教程的SparkSQL基础部分的思维导图。SparkSQL主要是通过sql语句来简化RDD的开发流程,主要内存包括:
- SparkSQL历史(从Hive到Shark,再到剥离Hive依赖的SparkSQL)
- 两个数据抽象:Dataframe和DataSet,其中DF是一种以RDD为基础的包含schema 元信息的二维表格数据,属于弱类型;DS是DF的强类型扩展,type Dataframe = Dataset[Row]
- SparkSQL 核心编程,包括加载与保存数据,RDD、DF、DS之间的转换等
- UDF用户定义函数和UDAF用户定义聚合函数的实现,新版本的Spark统一继承Agreegator即可。
视频链接:SparkSQL基础
二、一些重点图
1、RDD与Dataframe
2、RDD、DF、DS三者的相互转换
3、SparkSQL核心编程例子
1)spark-shell例子:
- SQL语法
- DSL语法:
2)IDEA例子:
package com.atguigu.bigdata.spark.sql
import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{Dataframe, Dataset, Row, SparkSession}
object Spark01_SparkSQL_Basic {
def main(args: Array[String]): Unit = {
// TODO 创建SparkSQL的运行环境
val sparkConf = new SparkConf().setMaster("local[*]").setAppName("sparkSQL")
val spark = SparkSession.builder().config(sparkConf).getOrCreate()
import spark.implicits._
// TODO 执行逻辑操作
// TODO Dataframe
//val df: Dataframe = spark.read.json("datas/user.json")
//df.show()
// Dataframe => SQL
// df.createOrReplaceTempView("user")
//
// spark.sql("select * from user").show
// spark.sql("select age, username from user").show
// spark.sql("select avg(age) from user").show
// Dataframe => DSL
// 在使用Dataframe时,如果涉及到转换操作,需要引入转换规则
//df.select("age", "username").show
//df.select($"age" + 1).show
//df.select('age + 1).show
// TODO DataSet
// Dataframe其实是特定泛型的DataSet
//val seq = Seq(1,2,3,4)
//val ds: Dataset[Int] = seq.toDS()
//ds.show()
// RDD <=> Dataframe
val rdd = spark.sparkContext.makeRDD(List((1, "zhangsan", 30), (2, "lisi", 40)))
val df: Dataframe = rdd.toDF("id", "name", "age")
val rowRDD: RDD[Row] = df.rdd
// Dataframe <=> DataSet
val ds: Dataset[User] = df.as[User]
val df1: Dataframe = ds.toDF()
// RDD <=> DataSet
val ds1: Dataset[User] = rdd.map {
case (id, name, age) => {
User(id, name, age)
}
}.toDS()
val userRDD: RDD[User] = ds1.rdd
// TODO 关闭环境
spark.close()
}
case class User( id:Int, name:String, age:Int )
}



