栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

SparkSQL(三)——SparkSQL与Hive的关系

SparkSQL(三)——SparkSQL与Hive的关系

Hive
  • 将库和表的元数据(metadata)存储在关系型数据库(MySQL)

  • 将表的内容数据(data)存储在HDFS

  • 通过命令行终端(hive)或者使用JDBC服务(hiveserver2)连接Hive集群,将HQL提交到集群通过MapReduce运行

SparkSQL
  • 将库和表的元数据(metadata)存储在关系型数据库(MySQL)

  • 将表的内容数据(data)存储在HDFS

  • 通过命令行终端(spark-sql)或者使用JDBC服务(thriftserver)连接Spark集群,将HQL提交到集群通过SparkRDD运行

  • SparkSQL也提供了DSL、SQL的编程api,程序入口SparkSession,数据抽象DatasetDataframe

将原有Hive数仓切换到SparkSQL
  • 将Hive的hive-site.xml拷贝到Spark集群的conf目录

  • 将元数据的jdbc驱动包拷贝到Spark集群的jars目录中

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/680108.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号