推荐系统基础架构以及项目介绍

系统学习《推荐系统》-- 基础架构一、通用推荐系统框架

数据收集

ETL MapReduce Spark Flink

数据存储

Hive Hbase MySQL Redis
持久化存储收集数据
通常按照数据的冷热，结构化和非结构化等特征分布存储

算法召回

热门 协同过滤 内容 画像 替补
将海量的数据集，根据特定算法进行初步的筛选
从数十万降低至数百及数千

结果排序

LR SVD DNN GBDT
进行精准排序
针对多个目标进行优化

结果应用

猜你喜欢 相似推荐 看了又看
根据不同场景给用户展示最终的推荐结果

推荐常用特征用户特征

自然属性画像特征：兴趣，行为关系特征：人群属性，关注关系，亲密度物品特征

静态特征：分类标签动态特征相关性特征上下文特征
今日头条
二、推荐常用算法

基于流行度
最热门最新最多人点赞

基于内容
相同标签相同关键词相似主题

基于关联规则
看了A的人也看了B

近邻推荐
协同过滤：基于用户基于物品基于模型

三、结果评估指标

*ROC指标*
对于输出值连续的分类器（如概率预测），在某一阈值下真阳性（TP）的概率/假阳性（FP）的概率

评估标准

很难

四、项目构建（Concrec）

数据源：Kaggle Anime Recommenations Dataset（动漫数据来源：myanimelist.net）

1. 数据预处理

汇总各方数据源可视化检视数据对数据进行清洗和转换

2. 召回

根据多种策略对候选集进行初步的召回

3. 排序

针对优化目标进行精准排序
实现特定规则的重排序

4. 接口服务

组装排序结果，并暴露接口供前端消费

5. 前端页面

结果展示 & 用户交互

五、Concrec技术选型

编程语言：python
微服务框架：Flask
前端页面：Vue
数据分析：pandas
大数据处理：spark + Flink（spark为主）
机器学习框架：TensorFlow（谷歌研发）

Spark：分布式大数据处理平台解决了计算能力和存储能力分布的问题不同于Hadoop，Spark基于内存计算，速度更快提供多种编程接口如SparkSQL，Mllib等
Flink：流式数据（stream）处理平台以流为核心，高吞吐，低延迟良好的容错性
TensorFlow：机器学习框架专注于神经网络、深度学习在分布式训练、模型可视化等方面十分的出色

推荐系统基础架构以及项目介绍

大数据系统相关栏目本月热门文章