- 预处理
- 基础概念
- 特征工程
- 数据样本采集-抽样
- 异常值(空值)处理
- 特征预处理
- 特征选择
- 代码实现
- 特征变换
- 对指化
- 离散化
- 归一化
- 标准化
- 数值化
- 特征降维
- 特征衍生
数据越大,数据框架越简单
数据越小,数据框架越复杂
如有钱人喜欢用炸弹号,连续号
离职为1,其他为0
注:不同于后期的数据建模,特征选择使用样本,进行小规模尝试
特征变换放大差距的变换方法
对指化
把比较大的量级,通过对数的方法,得到直观的分级
如存款,使用log10
声音,使用分贝
地震,使用震级
归一化将数字映射到0-1,更直观,对比数据间距离
标准化,与样本分布相关
求omega



