栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

基于Hive的淘宝用户行为数据分析

基于Hive的淘宝用户行为数据分析

基于Hive的淘宝用户行为数据分析

本文将通过阿里云天池提供的淘宝用户行为数据集,从不同维度出发,通过数据来分析淘宝用户的一些行为习惯和爱好。淘宝或商家可以根据结论做出一些举措。

一、 数据集介绍

本数据集取至阿里云天池的数据集,数据集名称为User behavior Data from Taobao for Recommendation,数据集包括用户ID,商品ID,商品类目ID,行为类型,时间戳,数据总条目数为100,150,807行。

1、采集网址:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1

2、数据集展示:

​ 图1-1 原始数据集部分截图

3、数据集介绍:

该数据集共有100,150,807行与5个属性,如表中的userid对应的是用户id,itemid对应的是商品id,categoryid对应的是商品类目ID,type对应的是行为类型,timestamp对应的是时间戳。

表1 淘宝用户数据集各字段说明

数据字段描述
userid用户id
itemid商品id
categoryid商品类目ID
type行为类型
timestamp时间戳

表2 type包含属性各字段说明

数据字段描述
pv商品详情页pv,等价于点击
buy商品购买
cart将商品加入购物车
fav收藏商品
二、 数据预处理

本课题的预处理方式主要是对数据进行数据清洗和数据规约。

(1)数据清洗:1)将时间戳转换成日期 2)数据集说明中写的是本数据集的日期范围是2017年11月25日至2017年12月2日,所以剔除这日期以外的数据

(2)数据规约:时间要在2017年11月25日至2017年12月2日

处理后数据集的部分截图如下:

图2-1 数据预处理结果(部分数据)

三、数据分析方法

1、分析目标

从用户id属性分析淘宝每日访问量的变化。

从时间属性分析用户在哪些时间、时段活跃。

从商品点击量维度分析热门商品类目有哪些。

统计出前10的热门商品。

2、分析思路与方法

根据数据集的特点,我们可以先从时间维度分析一下用户的一些行为习惯,比如哪个时间段是用户访问高发期,可以统计每天的访问量、每小时的访问量。直接统计商品分类前5名的分类,这样就可以按比例分配资源。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/673837.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号