栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

泰迪杯特等奖思路(教育平台线上课程用户行为分析(含数据可视化处理))-思路篇

泰迪杯特等奖思路(教育平台线上课程用户行为分析(含数据可视化处理))-思路篇

项目背景
  • 此数据集与题目来自于2020年泰迪杯个人技能赛,为某线上平台真实数据。该作品已获得同年最好成绩,为特等奖并获泰迪杯,现在目前的基础之上对其进行进一步的复盘与优化,如果大家有更好的想法或者思路也可以给我评论,大家一起交流进步呀!

任务要求
  • 任务 1 数据预处理
    • 任务 1.1 对照附录 1,理解各字段的含义,进行缺失值、重复值等方面的必12要处理,将处理结果保存为“task1_1_X.csv”(如果包含多张数据表,X 可从 1 开始往后编号),并在报告中描述处理过程。
    • 任务 1.2 对用户信息表中 recently_logged 字段的“--”值进行必要的处理,将处理结果保存为“task1_2.csv”,并在报告中描述处理过程。
  • 任务 2 平台用户活跃度分析
    • 任务 2.1 分别绘制各省份与各城市平台登录次数热力地图,并分析用户分布情况。
    • 任务 2.2 分别绘制工作日与非工作日各时段的用户登录次数柱状图,并分析用户活跃的主要时间段。
    • 任务 2.3 记푇푇푒푒푒푒푒푒为数据观察窗口截止时间(如:赛题数据的采集截止时间为2020 年 6 月 18 日),푇푇푖푖为用户 i 的最近访问时间,휎휎푖푖 = 푇푇푒푒푒푒푒푒 − 푇푇푖푖,若휎휎푖푖 > 90天,则称用户 i 为流失用户。根据该定义计算平台用户的流失率。
    • 任务 2.4 根据任务 2.1 至任务 2.3,分析平台用户的活跃度,为该教育平台的线上管理决策提供建议。
  • 任务 3 线上课程推荐
    • 任务 3.1 根据用户参与学习的记录,统计每门课程的参与人数,计算每门课程的受欢迎程度,列出最受欢迎的前 10 门课程,并绘制相应的柱状图。受欢迎程度定义如下:훾훾푖푖 = 푄푄푖푖 − 푄푄min푄푄max− 푄푄min。其中,훾훾푖푖为第 i 门课程的受欢迎程度,푄푄푖푖为参与第 i 门课程学习的人数,푄푄max和푄푄min分别为所有课程中参与人数最多和最少的课程所对应的人数。
    • 任务 3.2 根据用户选择课程情况,构建用户和课程的关系表(二元矩阵),使用基于物品的协同过滤算法计算课程之间的相似度,并结合用户已选课程的记录,为总学习进度最高的 5 名用户推荐 3 门课程。
    • 任务 3.3 在任务 3.1 和任务 3.2 的基础上,结合用户学习进度数据,分析付费课程和免费课程的差异,给出线上课程的综合推荐策略。

研究思路及分析过程
  • 任务一:数据预处理
    • 缺失情况分析
      • 数值为0/空值的情况需要分开讨论,且关注缺失数据是否为真实缺失
    • 异常情况分析
      • 对出现“--”的情况进行分析,且关注该符号的实际意义以及占比情况
    • 重复情况分析
      • 对于重复数据进行删除
  • 任务二:用户整体情况分析
    • 用户分布分析
      • 根据海内外、省份分析、乡镇分析入手,找到核心差异点所在
    • 用户活跃度分析
      • 细分整体情况与工作日差异
    • 用户流失情况分析
      • 细分整体情况与用户流失风险
    • 线上管理决策建议
      • 宣传、活跃度、流失为切口进行分析
  • 任务三:用户课程选择分析
    • 用户参与课程情况
      • 现有课程选择分析与受欢迎度计算
    • 用户课程推荐——基于协同过滤算法
      • 基于协同过滤算法进行重点课程推荐
    • 收费课程与用户学习进度相关分析
    • 线上课程综合推荐策略制定

项目复盘与优化
  • 省份人口占比细分
  • 流失率细分与人群细分
  • 协同过滤算法实现(这个部分当时是我的小伙伴实现,我现在自己去实现一遍,严格算不上优化-会单独重新算一遍放上来)

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/304701.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号