numpy:基于python的数值计算包,用于存储操作多维数组
scipy:基于numpy设计的用于科学计算和工程设计的开发包
matplotlib:绘制二维图像
scikit learn整体结构介绍
分类:垃圾邮件检测、图像识别
算法:支持向量机,最近邻,随机森林,集成方法……
回归:药物反应,股票价格
算法:支持向量机,核岭回归,lasso,弹性网……
聚类:客户细分,分组实验输出
算法:k均值,谱聚类,均值漂移
维数约简:可视化,提高效率
算法:PCA,特征选择,非负矩阵分解……
模型选择:通过参数调节提高精度
算法:网格搜索,交叉验证,评估测度
数据预处理:从原始数据到特征向量
算法:preprocessing,feature extraction……
对机器学习基本概念(分类、回归等)的快速介绍;如何加载数据集;如何调用学习器模型;如何训练,预测以及评估;模型持久化;一些约定俗成;
pandas:数据分析
开发环境搭建:
安装Anaconda、Python、配置环境
sklearn算法库的顶层设计
1、sklearn包含了哪些模块?
sklearn监督学习的各个模块
sklearn无监督学习模块
sklearn数据变换模块
sklearn算法类顶层设计图
2、sklearn中算法的继承关系
sklearn算法类svm继承关系图(以支持向量机为例)
sklearn算法模块cluster继承关系图(以K-Means和Meanshift为例)
sklearn算法模块featyre_extraction继承关系图(以featurehasher和dictvextorizer为例)
3、sklearn中的统一API接口
sklearn六大板块统一API
sklearn监督学习工作流程
例子:鸢尾花的分类
环境为pycharm
sklearn无监督学习工作流程
展示数据预处理工作流程:数据变换
4、sklearn中算法的学习顺序



