- 7.1 数据挖掘算法平台
- 7.2 数据挖掘中台体系
- 7.2.1 挖掘数据中台
- 7.2.2 挖掘算法中台
- 7.3 数据挖掘案例
- 7.3.1 用户画像
- 7.3.2 反作弊
7.1 数据挖掘算法平台数据挖掘技术与数据仓储和计算技术发展相辅相成,挖掘有效数据信息
企业级数据挖掘包含两个要素:
- 面向计算器学习算法的并行计算框架与算法平台;
- 面向企业级数据挖掘的算法资产管理体系。
汇集了大量优质的分布式算法,包括数据处理、特征工程、机器学习算法等,可高效地完成海量、亿级维度数据的复杂计算(海量样本的高维度特征训练时必备要素)
MPI是一种基于消息传递的并行计算框架,没有IO操作。
将一些通用的技术集成起来形成中台技术体系,提供统一、高效的技术服务,避免资源浪费与时间消耗。
一次数据挖掘的过程:商业理解 -> 数据准备 -> 特征工程 -> 模型训练 -> 模型测试 -> 模型部署 -> 线上应用 -> 效果反馈。
数据挖掘的商业场景
- 个体挖掘应用,对单个实体的行为特征进行预测分析,如预测商品的销量等
- 关系挖掘应用,研究多个实体间的关系特征,如商品的相似关系
数据挖掘技术要素
- 数据,数据是起源也是最终承载形式,源于数据高于数据
- 算法,是神经中枢,进行加工
- 特征层 Featural Data Mining Layer(FDM)。存储训练前常用的特征指标,统一清洗和去噪处理。
- 中间层
- 个体中间层 Individual Data Mining Layer。面向个体挖掘场景,存储通用性强的结果数据
- 关系中间层 Relational Data Mining Layer。面向关系挖掘场景,存储通用性强的结果数据
- 应用层 Application-oriented Data Mining Layer (AD)。沉淀比较个性偏应用的数据挖掘指标,经过深度加工
比较难的是在理解原理的基础上结合业务使用算法。希望有一套类似于评分卡建模的方法论和实操模版。
个体挖掘:消费者画像与业务指标预测 比较有代表性
关系挖掘:相似关系和竞争关系
7.3 数据挖掘案例 7.3.1 用户画像背景:传统获取用户反馈信息耗时长、结果缺失
转折点:大数据环境,能快速获取海量用户行为并精确分析人群偏好
什么是用户画像:为用户打上各种标签,如年龄、性别、职业、商品类别偏好等
分类:基础属性、购物偏好、社交关系、财富属性
用户标签如何基于全域数据产出?女装风格偏好为例
- 女装有哪些风格?将女装行业下的商品标题文本提取出后,进行分词(去除无效的词可用TF-IDF),得到女装描述词库
- 如果商品描述中已经包含一种风格,就可以计算词库中词语和商品描述的相似度,过滤得到女装风格词库
- 用无监督学习LDA等可以计算出一种风格包含的词汇和词汇的重要性
- 根据买家的浏览、搜索、加购物车等行为,考虑风格元素组成
- 选择合适的进行推荐
反作弊的使用方面
- 账户/资金安全与网络欺诈防控
- 非人行为和账户识别
- 虚假订单与信用炒作识别
- 广告推广与APP安装反作弊
- UGC恶意信息检测
反作弊方法
- 基于业务规则。优点:精度高、可解释性强,能识别老的作弊方式。缺点:人力成本高,滞后性强
- 基于有监督学习的方法。优点:通用性强,人力成本在样本标注。缺点:解释性不强,易错判
- 基于无监督学习的方法。优点:异常检测,不需要标记样本。缺点:特征设计和提取工作量大
- 多媒体数据处理
- 图计算模型
反作弊分类
- 离线反作弊。通过对历史行为和业务规则的沉淀,来判断未来行为的作弊情况。优点:准确率高,历史数据越多越准。缺点:时效性差
- 实时反作弊。在满足基本准确率和覆盖率的前提下抽取计算速度比较快的部分。
挑战
- 作弊手段的多样性和多变性
- 算法的及时性和准确性
- 数据及作弊手段的沉淀和逆向反馈



