A. 人工智能 --- 算法设计步骤（数据预处理）

A. 人工智能 — 算法设计步骤（数据预处理）数据预处理

数据采样
- 上采样
- 下采样
处理缺失值
- 丢失缺失值（数据量大，缺失值少，比如互联网数据）
- 遗失值插补
  - 该列的存在值的平均值
去除唯一属性
数据正则化，标准化
数据摘要

特征提取

特征列
- 数值列
- 分桶列
- 分类标识列
- 分类词汇列
- 经过哈希处理的列
- 组合列
- 指标列和嵌入列
特征提取算法
- 文本
  - TFIDF
特征选取
- 步骤
  - 搜索新的特征子集
  - 对搜索结果进行评估
- 方法
  - 包裹法
  - 过滤法
  - 嵌入法

降维

线性降维
- PCA: 主成分分析（无监督）
  - 步骤
    - 数据规范化
    - 协方差矩阵计算
    - 特征值分解
    - 降维处理
    - 数据投影
  - 缺点
    - 只能做线性降维，无法做非线性降维
  - 算法
    - NMF（Non-negative matrix factorization）
    - 没有非负限制的降维
- LDA: 监督算法
  - 结合label，做线性降维。
非线性降维
- 基于图的降维
  - 拉普拉斯特征映射（LE）
    - 拉普拉斯特征映射是一种基于图的降维算法，它希望相互间有关系的点（在图中相连的点）在降维后的空间中尽可能的靠近，从而在降维后仍能保持原有的数据结构。
  - 局部线性嵌入（LLE）
    - 概述
      - LLE关注于降维时保持样本局部的线性特征，由于LLE在降维时保持了样本的局部特征，它广泛的用于图像图像识别，高维数据可视化等领域。
    - 目标
      - 我们有一块卷起来的布，我们希望将其展开到一个二维平面，我们希望展开后的布能够在局部保持布结构的特征，其实也就是将其展开的过程，就想两个人将其拉开一样。
      - 在局部保持布结构的特征，或者说数据特征的方法有很多种，不同的保持方法对应不同的流形算法：比如说
        等距映射（ISOMAP）算法在降维后希望保持样本之间的测地距离而不是欧式距离，因为测地距离更能反映样本之间在流形中的真实距离。
        问题
        等距映射算法有一个问题就是他要找所有样本全局的最优解，当数据量很大，样本维度很高时，计算非常的耗时
        
        解决思路
        LLE通过放弃所有样本全局最优的降维，只是通过保证局部最优来降维。同时假设样本集在局部是满足线性关系的，进一步减少的降维的计算量。
    - 核心思想
- t-SNE
  - 问题
    - LE和LLE只能处理相近的点相近，无法处理不同的点也可能相近的情况
  - 两种分布的条件概率尽可能的相近，可以用梯度下降的方法
    - 计算不同的点之间的相似度
    - 计算不同点之间相似度的条件概率
  - 优化
    - 先做 PCA 到一定程度，再做t-SNE
因子分析
独立成分分析

A. 人工智能 --- 算法设计步骤（数据预处理）

Python相关栏目本月热门文章