（12）spark sql --操作 Mysql & Hive 代码实现

spark sql --读取 Mysql & Hive 数据

MysqlHive

Mysql

Spark SQL可以通过JDBC从关系型数据库中读取数据的方式创建Dataframe，通过对Dataframe一系列的计算后，还可以将数据再写回关系型数据库中。
在Idea 中通过 JDBC 对 Mysql 进行操作

导入依赖


	mysql
	mysql-connector-java
	5.1.27

读取数据

val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkSQL")

//创建 SparkSession 对象
val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate()
 import spark.implicits._
 
//方式 1：通用的 load 方法读取
spark.read.format("jdbc")
.option("url", "jdbc:mysql://linux1:3306/spark-sql")
.option("driver", "com.mysql.jdbc.Driver")
.option("user", "root")
.option("password", "123123")
.option("dbtable", "user")
.load().show

//方式 2:通用的 load 方法读取 参数另一种形式
spark.read.format("jdbc")
.options(Map("url"->"jdbc:mysql://linux1:3306/spark-sql?user=root&password= 123123",
"dbtable"->"user","driver"->"com.mysql.jdbc.Driver")).load().show

//方式 3:使用 jdbc 方法读取
val props: Properties = new Properties() props.setProperty("user", "root") props.setProperty("password", "123123")
val df: Dataframe = spark.read.jdbc("jdbc:mysql://linux1:3306/spark-sql", "user", props)
df.show

//释放资源
spark.stop()

写入数据

case class User2(name: String, age: Long)

val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkSQL")

//创建 SparkSession 对象
val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate() import spark.implicits._

val rdd: RDD[User2] = spark.sparkContext.makeRDD(List(User2("lisi", 20), User2("zs", 30)))
val ds: Dataset[User2] = rdd.toDS
//方式 1：通用的方式 format 指定写出类型
ds.write
.format("jdbc")
.option("url", "jdbc:mysql://linux1:3306/spark-sql")
.option("user", "root")
.option("password", "123123")
.option("dbtable", "user")
.mode(SaveMode.Append)
.save()

//方式 2：通过 jdbc 方法
val props: Properties = new Properties() props.setProperty("user", "root") props.setProperty("password", "123123")
ds.write.mode(SaveMode.Append).jdbc("jdbc:mysql://linux1:3306/spark-sql", "user", props)

//释放资源
spark.stop()

Hive

1）添加依赖


    org.apache.spark
    spark-hive_2.11
    2.1.1



    org.apache.hive
    hive-exec
    1.2.1

2）将hive-site.xml 文件拷贝到项目的 resources 目录中，
并且target/classes 目录下也要有hive-site.xml，如果没有也copy一份上去

3）代码实现
添加 enableHiveSupport()

//创建SparkSession
val spark: SparkSession = SparkSession
  .builder()
  .enableHiveSupport()
  .master("local[*]")
  .appName("SQLTest")
  .getOrCreate()

4）如果在执行操作时，出现如下错误：

可以代码最前面增加如下代码解决：
System.setProperty(“HADOOP_USER_NAME”, “root”)
此处的 root 改为你们自己的 hadoop 用户名称

（12）spark sql --操作 Mysql & Hive 代码实现

大数据系统相关栏目本月热门文章