spark-submit提交2、spark shell (repl) 里面使用sqlContext 测试使用,简单任务使用
spark-shell --master yarn-client 不能使用yarn-cluster Driver必须再本地启动3、spark-sql spark-sql --master yarn-client 不能使用yarn-cluster
可以整合hive 使用hive的元数据 开启hive元数据服务的目的是让spark sql 可以获取到hive的元数据1、在hive的hive-site.xml修改一行配置,增加了这一行配置之后,以后在使用hive之前都需要先启动元数据服务 hive.metastore.uris thrift://master:9083 2、启动hive元数据服务
nohup hive --service metastore >> metastore.log 2>&1 & 验证hive是否可用3、将hive-site.xml 复制到spark conf目录下cong
在hive/conf目录下
cp hive-site.xml /usr/local/soft/spark-2.4.5/conf/
在hive/lib目录下 cp mysql-connector-java-5.1.17.jar /usr/local/soft/spark-2.4.5/jars/ 整合好之后在spark-sql 里面就可以使用hive的表了 spark-sql --master yarn-client --conf spark.sql.shuffle.partitions=2 不能使用cluster模式 在spark-sql中设置运行参数 set spark.sql.shuffle.partitions=2;
上传student数据到hdaoop 并建表
create table student
(
id string,
name string,
age int,
gender string,
clazz string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’
STORED AS textfile
location ‘/data/student/’;
分别在hive spark查询学生数据
select clazz,count(1) from student group by clazz;
spark sql速度
hive速度



