-
Spark on Hive:Spark通过Spark-SQL使用hive语句,操作hive,底层运行的还是spark rdd
- 就是通过sparksql,加载hive的配置未见,获取到hive的元数据信息
- spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据
- 接下来就可以通过saprk sql来操作hive表中的数据
-
Hive on Spark
- 是把hive查询从mapreduce的mr(Hadoop计算引擎)操作替换为spark rdd(spark执行引擎)操作,相对于spark on hive,这个要实现则麻烦很多,必须重新编译spark和导入jar包,不过不签大部分使用的是spark on hive



