栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

尚硅谷电商推荐系统笔记

尚硅谷电商推荐系统笔记

项目提取码:1234

1、数据导入mongodb DataLoader

product和rating表,通过spark加载进来数据(RDD格式)转化为Dataframe格式存入MongoDB中

2、统计推荐模块 StatisticsRecommender

1、加载Rating表,通过spark sql 做不同的统计
2、历史热门商品,按照评分个数统计,存储到RateMoreProducts表中
3、近期热门商品,通过商品时间戳排序,对最近2个月的商品进行评价数统计,存储到RateMoreRecentlyProducts表中
4、优质商品推荐,计算所有商品的平均评分,进行排序,存储到AverageProducts表中

3、基于LFM(隐语义模型)的离线推荐模块 OfflineRecommender

LFM隐语义模型

1、加载Rating表[userId,productId,score]
2、取出用户数据和商品数据,userId,productId
3、通过ALS训练
4、获得预测评分矩阵,得到用户的推荐列表
5、从预测评分矩阵中提取得到用户推荐列表
6、利用商品的特征向量,计算商品的相似度列表
7、两两配对商品,计算余弦相似度
8、存储两两商品的余弦相似度,存储为ProductRec表

ALS模型评估与参数选择

  • 这里就是写了一个模型主体部分,简简单的模型概念
    ALS协同过滤算法
5、实时推荐模块

OnlineRecommender

6、实时推荐系统联调

KafkaStream

7、基于内容的离线推荐模块

ContentRecommender

TF-IDF

  • 一句话:字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

  • TF-IDF = TF * IDF

1、读入Produc表,对tags列进行分词
2、定义一个分词器,分词结束计算每个词的频次
3、定义一个IDF工具,计算TF-IDF
4、两两配对商品,计算余弦相似度
5、存储为ContentbasedProductRecs表

8、基于ItemCf的离线推荐模块
  • ItemCFRecommender
  • 基于物品的协同过滤(Item-CF)

如果两个商品有同样的受众(感兴趣的人群),那么它们就是有内在相关性的。所以可以利用已有的行为数据,分析商品受众的相似程度,进而得出商品间的相似度。

关于系统的启动方法

启动mongo

sudo mongod --dbpath=/var/lib/mongodb

启动zookeeper

/usr/local/zookeeper/zookeeper-3.4.11/bin/zkServer.sh start

启动kafka

/usr/local/kafka_2.11-0.10.2.1/bin/kafka-server-start.sh -daemon /usr/local/kafka_2.11-0.10.2.1/config/server.properties

启动redis

redis-server 

redis客户端

redis-cli

运行OnlineRecommend

创建生产者

./bin/kafka-console-producer.sh --broker-list localhost:9092 --topic recommender

产生数据

4867|8195|4.0|1556433066

启动kakfaStream/Application

启动flume

./bin/flume-ng agent -c ./conf/ -f ./conf/log-kafka.properties -n agent -Dflume.root.logger=INFO,console

启动tomcat7 进入系统

至此系统完成全部启动

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/300161.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号