栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Spark访问Hive中的表

Spark访问Hive中的表

文件studentinfo--> Linux -->  HDFS  --> Hive  -->  Spark读取

1.把本地的文件上传到Linux上

利用命令:rz-E 上传文件studentinfo到Linux下的/dataset/路径下

2.把Linux中/dataset/路径下studentinfo文件上传到HDFS上

hdfs dfs -mkdir -p /dataset
hdfs dfs -put studentinfo /dataset/

3.使用hive或beeline执行SQL,创建hive表student

CREATE DATAbase IF NOT EXISTS spark_integrition;

USE spark_integrition;

CREATE EXTERNAL TABLE student
(
  name  STRING,
  age   INT,
  gpa   string
)
ROW FORMAT DELIMITED
  FIELDS TERMINATED BY 't'
  LINES TERMINATED BY 'n'
STORED AS TEXTFILE
LOCATION '/dataset/hive';

4.加载HDFS数据到hive

LOAD DATA INPATH '/dataset/studentinfo' OVERWRITE INTO TABLE student;

5.通过SparkSQL查询hive的表

scala> spark.sql("use spark_integrition")
scala> val resultDF = spark.sql("select * from student limit 10")
scala> resultDF.show()
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/612911.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号