机器学习是一门人工智能的科学 该领域的主要研究对象是人
工智能 特别是如何在经验学习中改善具体算法的性能。
机器学习是对能通过经验自动改进的计算机算法的研究
机器学习是用数据或以往的经验 以此优化计算机程序的性能标
准
机器学习是人工智能及模式识别领域的共同研究热点 其理论和方
法已被广泛应用于解决工程应用和科学领域的复杂问题。
基于机器学习的发展历程 机器学习可以分为传统机器学习与大数据环境下机器学习。
传统机器学习的研究方向主要包括决策树、随机森林、人工神经网络、贝叶斯学习等方面的研究
随着大数据时代各行业对数据分析需求的持续增加 通过机器学习高
效地获取知识 已逐渐成为当今机器学习技术发展的主要推动力。大数据
时代的机器学习更强调“学习本身是手段 机器学习成为一种支持和服务
技术。如何基于机器学习对复杂多样的数据进行深层次的分析 更高效地
利用信息成为当前大数据环境下机器学习研究的主要方向。
基于学习策略 机器学习可以分为模拟人脑的机器学习、直接采用数学
方法的机器学习。
模拟人脑的机器学习又可以分为符号学习与神经网络学习
。
符号学习:模拟人脑的宏现心理级学习过程 以认知心理
学原理为基础 以符号数据为输入 以符号运算为方法 用推
理过程在图或状态空间中搜索 学习的目标为概念或规则等。
符号学习的典型方法有记忆学习、示例学习、演绎学习.类比
学习、解释学习等。
神经网络学习(或连接学习) :
模拟人脑的微观生理级学习
过程 以脑和神经科学原理为基础 以人工神经网络为函数结构
模型 以数值数据为输人 以数值运算为方法 用迭代过程在系
数向量空间中搜索 学习的目标为函数。典型的连接学习有权值
修正学习、拓扑结构学习
Scikit-learn(sklearn)是机器学习中常用的第三方模块 对常用的机器学习方法进行了封装
包括回归(Regression) 、降维(Dimensionality Reduction)分类(Classfication)
聚类(Clustering)等方法。
Scikit-learn依赖如下软件包:
●Python ( 2.7 or 3.3)
●NumPy ( 1.8.2),
●SciPy ( 0.13.3).
数据科学中的第一步通常都是加载数据 SciKit-Learn 中自带-些数据集 可以尝
试加载。
先从sklearn导入数据集模块 然后 使用数据集中的loaddigits()方法加载数
据。
from sklearn import datasets
digits datasets.load digits()
print(digits)
from sklearn import datasets
from sklearn.model selection import train test split
boston datasets.load boston()
train_ X,test X, train y, test y train test split(boston.data, boston.target,
test size 0.2, random state 0)
现实世界中数据大体上都是不完整 不致的脏数据 无法直接进行数据挖
掘 或挖掘结果不好。为了提高数据挖掘的质量产生了数据预处理技术。
数据预处理有多种方法:数据清理 数据集成 数据变换 数据归约等。这
些数据处理技术在数据挖掘之前使用 大大提高了数据挖掘模式的质量 降低实
际挖掘所需要的时间。
数据预处理主要包括:
数据清理、数据集成、数据变换、数据归约。



