说明:Spark SQL是Spark用来处理结构化数据的一个模块,它将Spark SQL转换成RDD,然后提交到Spark集群执行,执行速度快,对原有Hadoop生态兼容性好。Spark-SQL所用数据抽象为Dataframe,是一种以RDD为基础的分布式数据集,相当于关系数据库的表。
启动了hdfs,yarn,zookeeper,mysql,spark
一、创建和保存Dataframe
独立应用编程时候,可以先创建一个SparkSession对象,再进行数据的读取和存储操作。
[root@hadoop1 temp]# vi sparkcreatdatafrom.py
from pyspark import SparkContext,SparkConf from pyspark.sql import SparkSession spark



