栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

user

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

user

user_artist__data数据记录用户播放某首歌曲的次数,数据包含3个字段,分别为useid(用户ID)、artistid(艺术家ID)、playcount(播放次数)。

user_artist_data.txt

使用SparkSQL对该数据进行探索分析。

(1)统计非重复的用户个数。

(2)统计用户听过的歌曲总数。

(3)找出ID为“1000002”的用户最喜欢的10首歌曲(即播放次数最多的10首歌曲)。

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

public class homework_4 {

	public static void main(String[] args) {
		// TODO Auto-generated method stub
		SparkSession spark = SparkSession.builder().master("local").appName("Java Spark SQL basic example").config("spark.testing.memory","2147480000").getOrCreate();
		Dataset df = spark.read().format("csv").option("header", "true").load("file:///homeq/eclipse-workspace/user_artist_data.csv");
		//df.show();
		df.createOrReplaceTempView("UAD");
		
		//1)统计非重复的用户个数。
		//spark.sql("select count(distinct userid) as usernumber from UAD ").show();
		
		//统计用户听过的歌曲总数。
//		spark.sql("select userid,count(playcount) as playcount from UAD group by userid").show();
		System.err.println("");
		
//		找出ID为“1000002”的用户最喜欢的10首歌曲(即播放次数最多的10首歌曲)。
		spark.sql("select * from UAD where userid='1000002' order by playcount desc limit 10").show();
		
	}

}

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/781554.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号