栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Spark SQL说明和操作

Spark SQL说明和操作

Dataframe关联密切的是Spark SQL技术,作为Spark中的4大模块之一,在Dataframe的基础上,将其注册为表,然后使用SQL语句进行读取处理。
主要的处理步骤如下:

操作的对应的视频如下,在腾讯课堂可免费查看所有的视频与下载简介资料

个人大数据平台的搭建与学习实践-PySpark-学习视频教程-腾讯课堂 (qq.com)

PySpark的认识和使用

1-创建Dataframe,对于Spark2使用SparkSession;对于Spark 1使用SQLContext
 
# 1 在Spark2中使用SparkSession对象
from Pysparkimport SparkContext
from Pyspark.sql import SparkSession
sc=SparkContext(appName="test_sc") 
spark=SparkSession.builder.appName('xxx_session').getOrCreate()

# 2在Spark1中使用SQLContext对象
from Pyspark.sql import SQLContext
sql_sc = SQLContext(sc)

# 3使用read进行读取各种数据源的创建Dataframe,Spark 1和Spark 2操作方法一样
df = spark.read.csv(....)
df = spark.read.json(....)
df = spark.read.jdbc(....)
df = spark.read.textFile(....)

# 或直接使用CreateDataframe函数构建
df=spark.createDataframe(…)
2-获取数据

可以是通过Python Pandas读取数据,或是通过SparkSession中的read属性,它是pyspark.sql.readwriter 模块中的DataframeReader类型,在文档中可以搜索DataframeReader,可以发现针对不同的数据源的读取函数。pyspark.sql.readwriter

3-在Dataframe的基础上构建表或视图,有很多的函数创建具有不同生命周期的视图或表
  1. createGlobalTempView(name) 使用此Dataframe创建全局临时视图,其生命周期和Spark应用程序
  2. createOrReplaceGlobalTempView(name) 使用给定的名称创建或替换全局临时视图。
  3. createTempView(name) 用Dataframe创建一个本地临时视图
  4. createOrReplaceTempView(name) 用Dataframe创建或替换一个本地临时视图
  5. registerTempTable(name) 使用此给定名称注册此Dataframe作为临时表
删除Spark SQL表或试图
  1. spark.catalog.dropGlobalTempView(name)
  2. spark.catalog.dropTempView (name)
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/354617.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号