栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

【Spark编程】-- 统计文本中性别为“男”的用户数

【Spark编程】-- 统计文本中性别为“男”的用户数

题目:统计文本中性别为“男”的用户数。

1.训练要点

(1)创建RDD的方法。

(2) map转换方法。

(3 ) filter的用法。

(4) count的用法。


2.需求说明

    文档test.txt需要自己下载,一个用户 的信息存储为一行数据,现在要求过滤出其中性别为“男”的用户,并且统计有多少行符合要求。

3.实现思路及步骤:

全部代码展示:

hdfs  dfs  -put  test.txt  /user/root

val testdata=sc.textFile("hdfs://node1:8020/user/root/test.txt").map{x=>val line=x.split(",");(line(0),line(3))}

val testdata_man=testdata.filter(x=>x.toString.contains("男"))

testdata_man.take(10)

具体运行步骤及解析的截图:

(1)上传文件

(2)读取数据创建RDD。

( 3 )通过filter操作过滤数据,filter 的函数判断数据是否包含“男"字符,可用“contains"方法。

(4)用take对步骤(2)的结果进行统计,得到行数。

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/775101.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号