栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

spark-shell使用

spark-shell使用

文章目录

使用SparkPi提交任务

bug(待解决): spark-shell进行词频统计

使用SparkPi提交任务

先开启spark集群

[root@hadoop01 bin]# ./spark-submit --class org.apache.spark.examples.SparkPi /
--master spark://hadoop01:7077 /
--executor-memory 1G /
--total-executor-cores 1 examples/jars/spark-examples_2.12-3.2.0.jar 10

进入hadoop01:8080网址可以显示出

高可用时需要指向一个Master列表:

[root@hadoop01 bin]# ./spark-submit --class org.apache.spark.examples.SparkPi /
--master spark://hadoop01:7077,hadoop02:7077,hadoop03:7077 /
--executor-memory 1G /
--total-executor-cores 1 examples/jars/spark-examples_2.12-3.2.0.jar 10
bug(待解决):

spark-shell进行词频统计

在spark-env.sh配置文件中添加:

#指定HDFS配置文件目录
export HADOOP_CONF_DIR=/export/servers/hadoop-2.7.4/etc/hadoop

然后先启动zookeeper,再启动hadoop,最后启动spark。

创建需要统计的文件,并传入hdfs中。

启动spark-shell

[root@hadoop01 bin]# ./spark-shell --master local[2]

词频统计结果:

sc.textFile("/spark/test/words.txt").flatMap(_.split("")).map((_,1)).reduceByKey(_+_).collect
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/719210.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号