栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

spark整合hive

spark整合hive

目录
  • idea的spark环境操作hive
  • shell中使用spark环境操作hive

idea的spark环境操作hive

首先启动hive的元数据服务

接着在idea中配置有关spark整合hive的依赖,让idea在本地可以用spark的环境操作hive

这里就可以直接在idea中使用spark环境操作hive了

shell中使用spark环境操作hive

spark-sql
spark-sql --master yarn-client 不能使用yarn-cluster
可以整合hive 使用hive的元数据
1、在hive的hive-site.xml修改一行配置,增加了这一行配置之后,以后在使用hive之前都需要先启动元数据服务


    hive.metastore.uris
    thrift://master:9083

2、将hive-site.xml 复制到spark conf目录下
cp hive-site.xml /usr/local/soft/spark-2.4.5/conf/

3、启动hive元数据服务
hive --service metastore

nohup hive --service metastore >> metastore.log 2>&1 &

4、 将mysql 驱动包复制到saprk jars目录下
cp mysql-connector-java-5.1.49.jar /usr/local/soft/spark-2.4.5/jars/

整合好之后在spark-sql 里面就可以使用hive的表了
spark-sql --master yarn-client --conf spark.sql.shuffle.partitions=2
不能使用cluster模式

在spark-sql中设置运行参数
set spark.sql.shuffle.partitions=2;

这里面就可以直接使用spark操作hive了

感谢阅读,我是啊帅和和,一位大数据专业大四学生,祝你快乐。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/584331.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号