非参数统计概论很多数据分析都不知道事

文章目录内容介绍参数数据非参数数据排名数据使用排序数据

内容介绍

统计和统计方法领域的很大一部分专门用于已知分布情况的数据。

我们已经知道或能够很容易地识别数据分布的数据样本称为参数数据。通常参数用于指从常用的高斯分布中提取的数据。其中分布未知或不易识别的数据称为非参数数据。

在使用非参数数据的情况下可以使用专门的非参数统计方法来丢弃有关分布的所有信息。因此这些方法通常被称为无分布方法.

在本教程中您将发现非参数统计及其在应用机器学习中的作用。

阅读本文后您将了解

参数数据与非参数数据的区别。如何对数据进行排序以丢弃有关数据分布的所有信息。可用于排序数据的统计方法示例。

启动你的项目用我的新书机器学习统计包括一步一步的教程而Python源代码所有示例的文件。

我们开始吧。本教程分为四个部分参数数据、非参数数据、排名数据、使用排序数据。

参数数据

参数数据是从已知数据分布中抽取的数据样本。

这意味着我们已经知道了分布或者我们已经确定了分布并且我们知道了分布的参数。通常参数是从高斯分布中提取的实值数据的缩写.这是一个有用的速记但严格地说这并不完全准确。

如果我们有参数数据我们可以使用参数方法。继续用参数意义上的高斯的速记。如果我们有参数数据我们可以利用为假设高斯分布的数据而开发的整套统计方法例如

摘要统计。变量之间的相关性。比较均值的显着性检验。

一般来说我们更喜欢使用参数数据甚至使用数据准备方法来使数据参数化比如数据转换这样我们就可以利用这些被充分理解的统计方法。

非参数数据

不符合已知或充分理解的分布的数据称为非参数数据。

由于许多原因数据可能是非参数的例如

数据不是实值的而是序号、间隔或其他形式.数据是实值的但不符合人们充分理解的形状。数据几乎是参数化的但包含异常值、多峰、移位或其他特性。

有一套方法我们可以用于非参数数据称为非参数统计方法。事实上大多数参数方法都有一个等价的非参数版本。

一般说来非参数方法的结果不如它们的参数方法强大这是因为它们必须被推广以适用于所有类型的数据。我们仍然可以使用它们来进行推理并对发现和结果进行断言但它们将不像用参数方法进行类似的断言那样具有相同的权重。有关分发的信息将被丢弃。

在序数或区间数据的情况下非参数统计是唯一可以使用的统计信息类型。对于实值数据当您试图对不符合熟悉的高斯分布的数据进行声明时应用机器学习需要使用非参数统计方法。

排名数据

在应用非参数统计方法之前必须将数据转换为秩格式。

因此期望以秩格式表示数据的统计方法有时被称为秩统计如秩相关和秩统计假设检验。

排名数据和它的名字完全一样。程序如下

按升序排序示例中的所有数据。
为数据样本中的每个唯一值指定一个从1到N的整数秩。
例如假设我们有以下数据示例作为一列表示

我们可以将其分类如下

然后给每个值分配一个等级从1开始

然后我们可以将此过程应用于另一个数据样本并开始使用非参数统计方法。

对于特殊情况如处理领带、使用反向排序和使用分数等级分数等这一程序有不同的地方但一般属性仍然有效。

SciPy库提供曲轴数据()函数对数值数据进行排序该函数支持排序上的一些变化。

下面的示例演示了如何对数字数据集进行排序。

from numpy.random import rand
from numpy.random import seed
from scipy.stats import rankdata
seed(1)
data rand(1000)
print(data[:10])
ranked rankdata(data)
print(ranked[:10])

运行该示例首先从均匀分布中生成1000个随机数的样本然后对数据样本进行排序并打印结果。

[4.17022005e-01 7.20324493e-01 1.14374817e-04 3.02332573e-01
 1.46755891e-01 9.23385948e-02 1.86260211e-01 3.45560727e-01
 3.96767474e-01 5.38816734e-01]
[408. 721. 1. 300. 151. 93. 186. 342. 385. 535.]

使用排序数据

有一些统计工具可以用来检查样本数据是否适合给定的分布。

正态性检验

例如如果我们将非参数数据作为非高斯数据那么您可以使用统计方法来量化数据样本的高斯程度如果数据不能通过这些测试则使用非参数方法。

所谓常态测试的统计方法有三个例子

Shapiro-Wilk test.Kolmogorov-Smirnov test.Anderson-Darling test

一旦决定使用非参数统计就必须对数据进行排序。

实际上大多数用于推断的工具将自动执行样本数据的排序。然而在执行测试之前了解如何转换样本数据是很重要的。

在应用机器学习中可以使用非参数统计方法解决关于数据的两种主要问题。

变量间关系

量化变量间相关性的方法称为关联方法。

可以使用的两种非参数统计相关方法是

Spearman 相关系数Kendall 相关系数

比较样本均值

统计显着性检验是用来量化两个群体之间的均值是否有显著差异的方法。

可以使用的四个非参数统计显着性检验是

Mann-Whitney U Test.Wilcoxon Signed-Rank Test.Kruskal-Wallis H Test.Friedman Test.

非参数统计概论很多数据分析都不知道事

Python相关栏目本月热门文章