实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

名师互学网

名师互学网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

【Spark】SparkShell的运行

大数据系统更新时间：2026-05-22 02:06:14 发布时间：1611天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

SparkShell

spark shell的流程
具体操作
读取HDFS上的文件
- 访问的几种方式

简介：spark-shell是Spark自带的交互式Shell程序，方便用户进行交互式编程，用户可以在该命令行下用scala编写spark程序。

spark shell的流程

启动 Spark shell
进入Spark 安装目录后执行 spark-shell --master master 就可以提交Spark 任务
Spark shell 的原理是把每一行 Scala 代码编译成类, 最终交由 Spark 执行
Master的地址可以有如下几种设置方式

具体操作

在虚拟机中创建文件/export/data/wordcount.txt
启动Spark shell
执行如下代码

注：
1.上述代码中 sc 变量指的是 SparkContext, 是 Spark 程序的上下文和入口，正常情况下我们需要自己创建, 但是如果使用 Spark shell 的话, Spark shell 会帮助我们创建, 并且以变量 sc 的形式提供给我们调用
2.flatMap(.split(" ")) 将数据转为数组的形式, 并展平为多个数据
3.map, 1 将数据转换为元组的形式
4.reduceByKey(_ + _) 计算每个 Key 出现的次数

运行流程

读取HDFS上的文件

上传文件到HDFS中
在Spark shell中访问HDFS

访问的几种方式

可以通过指定 HDFS 的 NameNode 地址直接访问, 类似于上面代码中的 sc.textFile("hdfs://node01:8020/dataset/wordcount.txt")
也可以通过向 Spark 配置 Hadoop 的路径, 来通过路径直接访问
2.1. 在 spark-env.sh 中添加 Hadoop 的配置路径
export HADOOP_CONF_DIR="/etc/hadoop/conf"

2.2. 在配置过后, 可以直接使用 hdfs:///路径的形式直接访问

2.3. 在配置过后, 也可以直接使用路径访问

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/673858.html

上一篇【无标题】

下一篇 Docker安装RabbitMQ

大数据系统相关栏目本月热门文章

热门相关搜索

路由器设置木托盘宝塔面板儿童python教程心情低落朋友圈 vim 双一流学科专升本我的学校日记学校西点培训学校汽修学校情书化妆学校塔沟武校异形模板西南大学排名最精辟人生短句 6步教你追回被骗的钱南昌大学排名清朝十二帝北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名北京舞蹈学院排名北京电影学院排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名北京邮电大学(宏福校区)排名北京网络职业学院排名北京大学医学部排名河北科技大学排名河北地质大学排名河北体育学院排名

关于我们文章归档网站地图联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号：晋ICP备2021003244-6号