栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

【推荐系统算法学习笔记1】基本架构、专有名词、构建流程

【推荐系统算法学习笔记1】基本架构、专有名词、构建流程

文章目录

1.架构

1.1 大数据框架:lambda 架构的1.2.基本概念 2. 推荐模型构建流程

2.1 数据

2.1.1 数据来源2.1.2 数据清洗、处理 2.2 特征工程2.3 算法(机器学习) 来源

1.架构

推荐算法架构

召回

协同过滤基于内容的基于隐语义的 排序

召回决定了推荐的上限,排序逼近这个上限,体现推荐的效果CTR预估(点击率-用LR线性回归),估计用户是否点这个商品,需要用户的点击数据策略调整

比如某个item出现在列表里五次,用户也没点它,这时候就应该删了或者其他的商业需求

数据


推荐系统业务架构图

1.1 大数据框架:lambda 架构的

lambda架构

离线计算

hadoophivespark core,spark sql优点:能处理数据量大缺点:速度慢,分钟级别延迟 在线(实时

spark streamingstormflink优点:实时,ms缺点:处理数据量小 消息中间件

flume日志采集系统kafka 消息队列 存储相关

hbase:nosql数据库hive:sql操作hdfs数据
1.2.基本概念

    基本概念解释
    LTR 和 CTR 和 所谓的pointwise, pairwise, listwise的关系

    LTR (learning to rank) 意思是 ‘学习排序’,就是排序的机器学习技术CTR (click through rate) 意思是‘点击率(预估)’,这个很常见的二分类问题(点击概率0-1)pointwise 含义是单点(单文档)角度pairwise 含义是文档对角度listwise 含义是(推荐)文档列表角度

2. 推荐模型构建流程

数据收集

显性评分隐性数据 特征工程

协同过滤:用户-物品 评分矩阵基于内容的推荐:分词/tf-idf,文本信息,word2vec 训练模型

KNN矩阵分解 评估、上线


数据->特征->机器学习算法->预测输出
算法以服务形式存在

Cross Sell

电商eg:买了手机就推荐手机壳 Up Sell 2.1 数据 2.1.1 数据来源

(js的点击事件。。。、业务数据、网上获取(基于内容的)
内容画像(从类似网站爬一下)、
用户画像(可以买一些。这个好像不合法)

显性数据

打分(Rating)评论、评价(Comments) 隐形数据

历史订单(Order history加购物车(cart events页面浏览(page views点击(Click-thru搜索记录(Search log) 2.1.2 数据清洗、处理

数据清洗、处理 2.2 特征工程

协同过滤:用户-物品 评分矩阵基于内容的推荐:分词/tf-idf,文本信息

    从数据中筛选特征

商品,可能会被有类似的品味或需求的用户购买使用用户的行为描述商品

    用数据表示特征

    用户的行为合并–》user-item矩阵

    行:商品的向量列:用户的向量算向量间的相似度

    皮尔逊相似度cos。。。 拆矩阵,大矩阵拆成小的(SVD)

2.3 算法(机器学习)

协同过滤(Collaborative Filtering) 来源

    http://www.ainilearn.com/ 基础:包含推荐系统算法、hadoop、Hbase、Hive、spark等项目:离线用户、实时计算业务、推荐业务与深度学习。https://www.bilibili.com/video/BV1qK4y1479r?p=8
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/729187.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号