栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

非参数统计概论很多数据分析都不知道事

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

非参数统计概论很多数据分析都不知道事

文章目录 内容介绍参数数据非参数数据排名数据使用排序数据

内容介绍

统计和统计方法领域的很大一部分专门用于已知分布情况的数据。

我们已经知道或能够很容易地识别数据分布的数据样本称为参数数据。通常 参数用于指从常用的高斯分布中提取的数据。其中分布未知或不易识别的数据称为非参数数据。

在使用非参数数据的情况下 可以使用专门的非参数统计方法来丢弃有关分布的所有信息。因此 这些方法通常被称为无分布方法.

在本教程中 您将发现非参数统计及其在应用机器学习中的作用。

阅读本文后您将了解

参数数据与非参数数据的区别。如何对数据进行排序 以丢弃有关数据分布的所有信息。可用于排序数据的统计方法示例。

启动你的项目用我的新书机器学习统计 包括一步一步的教程而Python源代码所有示例的文件。

我们开始吧。本教程分为四个部分 参数数据、非参数数据、排名数据、使用排序数据。

参数数据

参数数据是从已知数据分布中抽取的数据样本。

这意味着我们已经知道了分布 或者我们已经确定了分布 并且我们知道了分布的参数。通常 参数是从高斯分布中提取的实值数据的缩写.这是一个有用的速记 但严格地说 这并不完全准确。

如果我们有参数数据 我们可以使用参数方法。继续用参数意义上的高斯的速记。如果我们有参数数据 我们可以利用为假设高斯分布的数据而开发的整套统计方法 例如

摘要统计。变量之间的相关性。比较均值的显着性检验。

一般来说 我们更喜欢使用参数数据 甚至使用数据准备方法来使数据参数化 比如数据转换 这样我们就可以利用这些被充分理解的统计方法。

非参数数据

不符合已知或充分理解的分布的数据称为非参数数据。

由于许多原因 数据可能是非参数的 例如

数据不是实值的 而是序号、间隔或其他形式.数据是实值的 但不符合人们充分理解的形状。数据几乎是参数化的 但包含异常值、多峰、移位或其他特性。

有一套方法 我们可以用于非参数数据 称为非参数统计方法。事实上 大多数参数方法都有一个等价的非参数版本。

一般说来 非参数方法的结果不如它们的参数方法强大 这是因为它们必须被推广以适用于所有类型的数据。我们仍然可以使用它们来进行推理 并对发现和结果进行断言 但它们将不像用参数方法进行类似的断言那样具有相同的权重。有关分发的信息将被丢弃。

在序数或区间数据的情况下 非参数统计是唯一可以使用的统计信息类型。对于实值数据 当您试图对不符合熟悉的高斯分布的数据进行声明时 应用机器学习需要使用非参数统计方法。

排名数据

在应用非参数统计方法之前 必须将数据转换为秩格式。

因此 期望以秩格式表示数据的统计方法有时被称为秩统计 如秩相关和秩统计假设检验。

排名数据和它的名字完全一样。程序如下

按升序排序示例中的所有数据。
为数据样本中的每个唯一值指定一个从1到N的整数秩。
例如 假设我们有以下数据示例 作为一列表示

0.020
0.184
0.431
0.550
0.620

我们可以将其分类如下

0.020
0.184
0.431
0.550
0.620

然后给每个值分配一个等级 从1开始

1 0.021055
2 0.404622
3 0.488733
4 0.618510
5 0.832803

然后 我们可以将此过程应用于另一个数据样本 并开始使用非参数统计方法。

对于特殊情况 如处理领带、使用反向排序和使用分数等级分数等 这一程序有不同的地方 但一般属性仍然有效。

SciPy库提供曲轴数据()函数对数值数据进行排序 该函数支持排序上的一些变化。

下面的示例演示了如何对数字数据集进行排序。

from numpy.random import rand
from numpy.random import seed
from scipy.stats import rankdata
seed(1)
data rand(1000)
print(data[:10])
ranked rankdata(data)
print(ranked[:10])

运行该示例首先从均匀分布中生成1000个随机数的样本 然后对数据样本进行排序并打印结果。

[4.17022005e-01 7.20324493e-01 1.14374817e-04 3.02332573e-01
 1.46755891e-01 9.23385948e-02 1.86260211e-01 3.45560727e-01
 3.96767474e-01 5.38816734e-01]
[408. 721. 1. 300. 151. 93. 186. 342. 385. 535.]
使用排序数据

有一些统计工具可以用来检查样本数据是否适合给定的分布。

正态性检验

例如 如果我们将非参数数据作为非高斯数据 那么您可以使用统计方法来量化数据样本的高斯程度 如果数据不能通过这些测试 则使用非参数方法。

所谓常态测试的统计方法有三个例子

Shapiro-Wilk test.Kolmogorov-Smirnov test.Anderson-Darling test

一旦决定使用非参数统计 就必须对数据进行排序。

实际上 大多数用于推断的工具将自动执行样本数据的排序。然而 在执行测试之前了解如何转换样本数据是很重要的。

在应用机器学习中 可以使用非参数统计方法解决关于数据的两种主要问题。

变量间关系

量化变量间相关性的方法称为关联方法。

可以使用的两种非参数统计相关方法是

Spearman 相关系数Kendall 相关系数

比较样本均值

统计显着性检验是用来量化两个群体之间的均值是否有显著差异的方法。

可以使用的四个非参数统计显着性检验是

Mann-Whitney U Test.Wilcoxon Signed-Rank Test.Kruskal-Wallis H Test.Friedman Test.
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/267146.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号