- 特征工程与模型聚合
- 什么是特征工程
- 特征工程的主要任务
- 特征工程的意义
- 特征的选择
- 特征来源
- 选择的目标
- 需要特征选择的原因
- 选择的方法
- 数据与特征的处理
- 数据采集需要注意的点
- 数据处理
- 特征处理
特征工程是一项工程活动,它的目的是为了最大限度得从原始数据中提取特征以供算法和模型使用
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限
从数据中抽取出对结果预测有用且高效的信息
特征工程的意义更好的特征意味着只需要简单的模型也可以有更好的模型效果,并且还拥有着更强的灵活性
特征的选择特征选择能剔除不相关或冗余的特征,从而达到减少特征数量,提高模型精确度,从而减少运行时间的目的
特征来源- 业务已经整理好的各种特征数据
- 自己从业务中寻找高级数据特征
- 寻找最优特征子集
特征冗余会导致相关度较高,过于消耗计算机资源
部分特征无用或有相反作用的特征容易干扰运行识别的效果
- filter过滤法
- wrapper包装法
- embedding嵌入法
- 数据采集需要考虑数据能否被采集到
- 需要考虑线上实时计算的时候获取是否快捷
- 考虑数据对最后结果预测的影响力
很多正负样本是不均衡的,大多数模型比对正负样本比较敏感,所以需要数据采样和数据清理
特征处理- 数值型
- 类别型
- 时间型
- 文本型
- 统计型



