栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

(12)spark sql --操作 Mysql & Hive 代码实现

(12)spark sql --操作 Mysql & Hive 代码实现

spark sql --读取 Mysql & Hive 数据

MysqlHive

Mysql

Spark SQL可以通过JDBC从关系型数据库中读取数据的方式创建Dataframe,通过对Dataframe一系列的计算后,还可以将数据再写回关系型数据库中。
在Idea 中通过 JDBC 对 Mysql 进行操作

    导入依赖

	mysql
	mysql-connector-java
	5.1.27

    读取数据
val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkSQL")

//创建 SparkSession 对象
val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate()
 import spark.implicits._
 
//方式 1:通用的 load 方法读取
spark.read.format("jdbc")
.option("url", "jdbc:mysql://linux1:3306/spark-sql")
.option("driver", "com.mysql.jdbc.Driver")
.option("user", "root")
.option("password", "123123")
.option("dbtable", "user")
.load().show

//方式 2:通用的 load 方法读取 参数另一种形式
spark.read.format("jdbc")
.options(Map("url"->"jdbc:mysql://linux1:3306/spark-sql?user=root&password= 123123",
"dbtable"->"user","driver"->"com.mysql.jdbc.Driver")).load().show

//方式 3:使用 jdbc 方法读取
val props: Properties = new Properties() props.setProperty("user", "root") props.setProperty("password", "123123")
val df: Dataframe = spark.read.jdbc("jdbc:mysql://linux1:3306/spark-sql", "user", props)
df.show

//释放资源
spark.stop()
    写入数据
case class User2(name: String, age: Long)

val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkSQL")

//创建 SparkSession 对象
val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate() import spark.implicits._

val rdd: RDD[User2] = spark.sparkContext.makeRDD(List(User2("lisi", 20), User2("zs", 30)))
val ds: Dataset[User2] = rdd.toDS
//方式 1:通用的方式 format 指定写出类型
ds.write
.format("jdbc")
.option("url", "jdbc:mysql://linux1:3306/spark-sql")
.option("user", "root")
.option("password", "123123")
.option("dbtable", "user")
.mode(SaveMode.Append)
.save()

//方式 2:通过 jdbc 方法
val props: Properties = new Properties() props.setProperty("user", "root") props.setProperty("password", "123123")
ds.write.mode(SaveMode.Append).jdbc("jdbc:mysql://linux1:3306/spark-sql", "user", props)

//释放资源
spark.stop()
Hive

1)添加依赖


    org.apache.spark
    spark-hive_2.11
    2.1.1



    org.apache.hive
    hive-exec
    1.2.1

2)将hive-site.xml 文件拷贝到项目的 resources 目录中,
并且target/classes 目录下也要有hive-site.xml,如果没有也copy一份上去

3)代码实现
添加 enableHiveSupport()

//创建SparkSession
val spark: SparkSession = SparkSession
  .builder()
  .enableHiveSupport()
  .master("local[*]")
  .appName("SQLTest")
  .getOrCreate()

4)如果在执行操作时,出现如下错误:

可以代码最前面增加如下代码解决:
System.setProperty(“HADOOP_USER_NAME”, “root”)
此处的 root 改为你们自己的 hadoop 用户名称

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/753792.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号