1.数据清洗
a.缺失数据可能的原因:设备故障,隐私数据,不适用
b.如何处理缺失数据:忽视,重填,自动重填
c.离群点(outlier):与整体的差异较大的点
d.差异点(anomaly):与其他点相比有问题的点
2.异常值与重复数据检测
a.离群点的定位:相对的距离 比值 LOF值越大
b.重复数据
3.类型转换与采样
a.类型:连续性、离散型、ordinal、nominal、string
b.采样:解决时间复杂度
c.1)不平衡数据:
G-mean=(ACC正*ACC负)的1/2次方
F-measure=(2*Precision*Recall)/(Precision+Recall)
2)向上取样、边界取样
3)SMOTE(Synthetic Minority Oversampling Technique)即合成少数类过采样技术:对少数d.类样本通过插值进行上采样
4.数据描述与可视化
a.数据标准化
有上下界:v'=[(v-min)/(max-min)]*(new-max - new-min)+new-min
无明确上下界:v'=(v-μ)/σ
b.数据描述
平均值、中位数、mode(频率)、variance(离散程度)
r(a,b)=0 ----a和b呈非线性相关
c.数据可视化
高纬度函数:box plots、 parallel coordinates
软件:citespace、gephi
5.特征选择
a.entropy(熵) information gain值越大越好
6.主成分分析
7.线性判别分析



