栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Spark综合学习笔记(十九)SparkSQL实战1-加载数据成为分布式表

Spark综合学习笔记(十九)SparkSQL实战1-加载数据成为分布式表

学习致谢
https://www.bilibili.com/video/BV1Xz4y1m7cv?p=54

SparkSession应用入口

Spark 2.0开始,SparkSession取代了原本的SQLContext与HiveContext作为SparkSQL应用程序的入口,可以加载不同数据源的数据,封装到Dataframe/Dataset集合数据结构中,使得编程更加简单,程序运行更加快速高效。注意原本的SQLContext与HiveContext仍然保留,以支持向下兼容。
http://spark.apache.org/docs/latest/sql-getting-started.html#starting-point-sparksession

环境准备

pom依赖


org.apache.spark
spark-sql_2.12
2.4.5

代码实现
package sql

import org.apache.spark.sql.{Dataframe, Dataset, SparkSession}


object Demo01 {
  def main(args: Array[String]): Unit = {
    //TODO 0.准备环境
    val spark = SparkSession.builder().appName("sparksql").master("local[*]").getOrCreate()

    //TODO 1.加载数据
    val df1:Dataframe = spark.read.text("data/SogouE.txt")
    val df2:Dataframe = spark.read.json("data/SogouE.json")
    val df3:Dataframe = spark.read.csv("data/SogouE.csv")

    //TODO 2.处理数据

    //TODO 3.输出数据
    df1.printSchema()
    df2.printSchema()
    df3.printSchema()
    df1.show()
    df2.show()
    df3.show()

    //TODO 4.关闭资源
  }

}
演示

1.txt

2.json

3.csv

分布式表

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/604642.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号