栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

《深入浅出数据科学》笔记

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

《深入浅出数据科学》笔记

文章目录
  • 如何听起来像数据科学家
    • 什么是数据科学
    • 数据科学韦恩图
  • 数据的类型
    • 数据的分类方式
    • 结构化数据和非结构化数据
    • 定量数据和定性数据
      • 案例
      • 字段分析内容
    • 深入研究
    • 数据的4个尺度
      • 定类尺度
      • 定序尺度
      • 定距尺度
      • 定比尺度
  • 数据科学的5个步骤
    • 数据科学和数据分析
    • 5个步骤预览
      • 提出有意思的问题
      • 获取数据
      • 探索数据
      • 数据建模
      • 可视化和结果分享
    • 探索数据
      • 基本问题
      • 定性数据的探索(Python)

如何听起来像数据科学家 什么是数据科学

数据是指有组织和无组织格式聚集在一起的信息

  1. 有组织数据:指以行列结构分类存储的数据,每一行代表一个观测对象,每一列代表一个观测特征。
  2. 无组织数据:指以自由格式存储的数据,通常指文本、原始音频/信号和图片等。这类数据必须进行解析才能成为有组织的数据。
数据科学韦恩图

理解数据科学需要从3个领域开始

  • 数学/统计学:指使用方程和公式进行分析
  • 计算机编程:指通过代码用计算机生成结果
  • 领域知识:指理解问题所处的领域(医学、金融、社会科学)
数据的类型

数据是信息的集合

数据的分类方式
  • 结构化和非结构化
  • 定量和定性
  • 数据的4个尺度
结构化数据和非结构化数据

判断方法:

  • 结构化数据:指特征和观察值以表格的形式存储(行列结构)
  • 非结构化数据:指数据以自由实体形式存在,不符合任何标准的组织层次结构,比如行列结构

文本信息的预处理

描述文本特征的数据

  • 字数/短语数
  • 特殊符号
  • 文本相对长度
  • 文本主题

大多数机器学习需要数值型数据

定量数据和定性数据

定量数据和定性数据的含义如下:

  • 定量数据:通常用数字表示,并支持包括加法在内的数字运算
  • 定性数据:通常用自然类别和文字表示,不支持数字格式和数字运算
案例

数据:咖啡店

  • 咖啡店名称
  • 营业额(单位:千元)
  • 邮政编码
  • 平均每月的客户数
  • 咖啡产地

分析

  • 咖啡店名称:定性数据

咖啡店名称无法用数字表示,且咖啡店名称不能进行数学运算

  • 营业额(单位:千元):定量数据

营业额可以用数字表示,且营业额支持简单的数学运算,如将12个月营业额相加可得到1年的营业额。

  • 邮政编码:定性数据

虽然邮政编码通常由数字表示,但它是定性数据,因为邮政编码不符合定量数据的第二个要求----支持数学运算。两个邮政编码相加得到一个没有意义的数字,而不是新的邮政编码

  • 平均每月的客户数:定量数据
  • 咖啡产地:定性数据

结论:

  • 大部分情况下,当字段值为文本时,该字段都是定性数据
  • 有些字段用数字表示,但并不是定量数据(如邮政编码),因为对该字段求和或求平均值,得到的结果没有任何意义
字段分析内容

定量数据列

  • 字段平均值是多少
  • 随着时间的推移,字段值是增加还是减少
  • 是否存在某个阈值,当字段值超过或低于阈值,表示公司在某方面出现了异常

定性数据列

  • 高频值和低频值分别是什么
  • 字段有多少重复值
  • 非重复值分别代表什么
深入研究

定量数据还可以继续细分为离散型数据和连续型数据

  • 离散型数据:通常为计数类数据,取值只能为自然数或整数

比如:掷色子的点数属于离散型,色子的点数只有六个值。

  • 连续型数据:通常为测量类数据,取值为无限范围区间

比如:体重可以是68kg,也可以是89.6kg,注意小数点,时间和温度同样属于连续型

数据的4个尺度

通常情况下,结构化数据的每一列都可以被归为以下四个尺度中的一个,分别是:

  1. 定类尺度
  2. 定序尺度
  3. 定距尺度
  4. 定比尺度

随着尺度的深入,数据的结构化特征也将越来越多,也更有利于分析。每个尺度都有适用于自身的测量数据中心的方法。

定类尺度

定类尺度,主要指名称或者类别数据,如性别,国籍等。它们无法用数字表示。

适用的数学运算

  1. 等式
  2. 集合隶属关系

测度中心

测度中心是一个描述数据趋势的数值,有时也被称为数据平衡点。常见的测度中心有平均值、中位数和模。

定类尺度的数据有何特征

定类尺度数据既不能排序,也无法相加,因此中位数和平均数不能作为它的测度中心

定序尺度

李克特量表是最常见的定序尺度数据。当我们用110填写满意度调查问卷时,生成的结果是定序尺度数据。调查问卷答案必须介于110,并可以被排序,比如8分比7分好。

适用的数学运算

  1. 等式
  2. 集合隶属关系
  3. 排序
  4. 比较

测度中心

定序尺度通常用中位数,而不是平均值表示测度中心,因为定序尺度不支持除法。

定距尺度

适当的数学运算

  1. 等式
  2. 集合隶属关系
  3. 排序
  4. 比较
  5. 加法
  6. 减法

测度中心

对于定距尺度数据,我们依然可以用中位数和模来表示数据的测度中心,但更加准确的方法是用算术平均数,通常称为均值

变差测度

在数据科学中,我们知道测度中心的重要性,了解数据分布的广度同样重要。

变差测度(比如标准差)是一个描述数据分散程度的数字。变差测度和测度中心是描述数据集最重要的两个数字。

标准差

标准差是定距尺度和更高尺度数据中应用最为广泛的变差测度。标准差可以理解为“数据点到均值点的平均距离”。

计算标准差公式的步骤:

  1. 计算数据的均值
  2. 计算数据集中的每一个值和均值的差,并将其平方
  3. 计算第2步的平均值,得到标准差
  4. 对第3步得到的值开平方,得到标准差
定比尺度

定比尺度的比值一般不为负数

适当的数学运算

  1. 等式
  2. 集合隶属关系
  3. 排序
  4. 比较
  5. 加法
  6. 减法
  7. 乘法
  8. 除法

测度中心

算数平均值对定比尺度仍然有效,同时还增加一种叫几何平均值的新均值类型,后者在定比类型中并经常适用,它是指n个观察值连乘积的n次方根。

几何平均值计算公式:

∏ x n n sqrt[n]{prod_{x}^{n}} n∏xn​ ​

数据科学的5个步骤 数据科学和数据分析

两者的最大不同在于数据科学严格遵循结构化,一步一步的操作过程,保证了分析结果的可靠性

5个步骤预览
  1. 提出有意思的问题
  2. 获取数据
  3. 探索数据
  4. 数据建模
  5. 可视化和结果分享
提出有意思的问题

学会多提问题并记录下问题。不要关心回答这些问题所需的数据是否存在。这样做的原因有两个:

  1. 你不会希望在没有找到数据之前,就被自己的偏见影响。
  2. 获取数据可能涉及公开渠道和私有渠道,因此不会轻松和显而易见。
获取数据

一旦确定需要关注的问题,接下来就需要全力收集回答上述问题所需要的数据。数据可能需要多个数据源。

探索数据 数据建模

涉及统计学和机器学习模型的应用。不仅仅选择模型,还通过在模型中植入数学指标,对模型效果进行评价。

可视化和结果分享

分析结果看起来非常明显和简单,但将其总结为他人易于理解的形式比看起来困难的多。

探索数据 基本问题

我们接触新数据集时,有5个基本问题需要回答。这些问题不是数据科学的起点和终点,它们时我们面对新数据集时需要遵循的基本原则。

  • 数据时有组织模式还是无组织模式
  • 每一行代表什么
  • 每一列代表什么
  • 是否有缺失值?如何处理缺失值?
  • 是否需要对某些列进行数据转换

自始至终,核心问题是,我们能从前期的推理统计中得到哪些信息。

定性数据的探索(Python)

定类尺度列

describe函数用于输出指定列的快速统计信息

describe函数作用于定性数据时,我们将得到4个统计信息

count该列含有多少个值
unique该列含有多少个非重复值
top该列出现次数最多的值
freq该列出现次数最多的值的次数
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/326359.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号