大数据之路——数据挖掘

七、数据技术篇—— 数据挖掘

数据挖掘技术与数据仓储和计算技术发展相辅相成，挖掘有效数据信息

企业级数据挖掘包含两个要素：

面向计算器学习算法的并行计算框架与算法平台；
面向企业级数据挖掘的算法资产管理体系。

7.1 数据挖掘算法平台

汇集了大量优质的分布式算法，包括数据处理、特征工程、机器学习算法等，可高效地完成海量、亿级维度数据的复杂计算（海量样本的高维度特征训练时必备要素）

MPI是一种基于消息传递的并行计算框架，没有IO操作。

7.2 数据挖掘中台体系

将一些通用的技术集成起来形成中台技术体系，提供统一、高效的技术服务，避免资源浪费与时间消耗。

一次数据挖掘的过程：商业理解 -> 数据准备 -> 特征工程 -> 模型训练 -> 模型测试 -> 模型部署 -> 线上应用 -> 效果反馈。

数据挖掘的商业场景

数据挖掘技术要素

7.2.1 挖掘数据中台

特征层 Featural Data Mining Layer（FDM）。存储训练前常用的特征指标，统一清洗和去噪处理。
中间层
- 个体中间层 Individual Data Mining Layer。面向个体挖掘场景，存储通用性强的结果数据
- 关系中间层 Relational Data Mining Layer。面向关系挖掘场景，存储通用性强的结果数据
应用层 Application-oriented Data Mining Layer （AD）。沉淀比较个性偏应用的数据挖掘指标，经过深度加工

7.2.2 挖掘算法中台

比较难的是在理解原理的基础上结合业务使用算法。希望有一套类似于评分卡建模的方法论和实操模版。

个体挖掘：消费者画像与业务指标预测比较有代表性

关系挖掘：相似关系和竞争关系

7.3 数据挖掘案例 7.3.1 用户画像

背景：传统获取用户反馈信息耗时长、结果缺失

转折点：大数据环境，能快速获取海量用户行为并精确分析人群偏好

什么是用户画像：为用户打上各种标签，如年龄、性别、职业、商品类别偏好等

分类：基础属性、购物偏好、社交关系、财富属性

用户标签如何基于全域数据产出？女装风格偏好为例

7.3.2 反作弊

反作弊的使用方面

反作弊方法

反作弊分类

挑战