一、数据科学的学科定位
从学科定位来看,数据科学处于数学与统计学知识、黑客精神与技能和领域实务知识三大领域的重叠之处。
(1)“数学与统计知识”是数据科学的主要理论基础之一。
(2)“黑客精神与技能”是数据科学家的主要精神追求和技能要求——大胆创新、喜欢挑战、追求完美和不断改进。
(3)“领域实务知识”是对数据科学家的特殊要求——不仅需要掌握数学与统计学知识以及具备黑客精神与技能,而且还需要精通某一个特定领域的实务知识与经验。
二、统计学
1、统计学与数据科学
统计学是数据科学的主要理论基础之一。
2、数据科学中常用的统计学知识
从行为目的与思维方式看,数据统计方法可以分为两大类——描述统计和推断统计。
从方法论角度看,基于统计的数据分析方法又可分为两个不同的层次——基本分析方法和元分析方法。
三、机器学习
1、机器学习与数据科学
机器学习为数据科学中充分发挥计算机的自动数据处理能力,拓展人的数据处理能力以及实现人机协同数据处理提供了重要手段。
2、数据科学中常用的机器学习知识
机器学习领域对机器学习的划分视角有两个:理论视角和应用视角。
1) 基于实例学习
K近邻方法、局部加权回归法、基于案例的推理。
2)概念学习
从有关某个布尔函数的输入输出训练样本中推算出该布尔函数。
3)决策树学习
一种逼近离散值目标函数的过程,决策树代表的是一种分类过程。
4)人工神经网络学习
借鉴了生物学的一小部分简单理论,其目的是从训练样本中学习到目标函数。
以感知器为例,可以将对应的每个人工神经元表示为下图所示:
5)贝叶斯学习
贝叶斯学习是一种以贝叶斯法则为基础的,并通过概率手段进行学习的方法。
6)遗传算法
遗传算法主要研究的问题是“从候选假设空间中搜索出最佳假设”。此处“最佳假设”指“适应度”指标为最优的假设。
7)分析学习
分析学习是相对于归纳学习的一种提法,其特点是使用先验知识来分析或解释每个训练样本,以推理出样本的哪些特征与目标函数相关或不相关。
8)增强学习
增强学习主要研究的是如何协助自治Agent的学习活动,进而达到选择最优动作的目的。
四、数据可视化
1、视觉是人类获得信息的最主要途径。
2、相对于统计分析,数据可视化的主要优势体现在两个方面:
1)数据可视化处理可以洞察统计分析无法发现的结构和细节。
2)数据可视化处理结果的解读对用户知识水平的要求较低。
3、可视化能够帮助人们提高理解与处理数据的效率。



