使用pandas可以非常方便的计算协方差矩阵 以上列子使用pandas来计算的代码如下
a pd.Dataframe([(1.0, 2.0, 4.0), (0, 3.0, 2.0), (2.0, 0, 2.0), (1.0, 1.0, 2.0)], columns [ Apple , Orange , Peach ]) a.cov()
得到的输出如下
相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标 是研究变量之间线性相关程度的量 一般用字母 r 表示。由于研究对象的不同 相关系数有多种定义方式 较为常用的是皮尔逊相关系数。
相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算 同样以两变量与各自平均值的离差为基础 通过两个离差相乘来反映两变量之间相关程度 着重研究线性的单相关系数。
皮尔逊相关系数的值在[-1,1]之间 大于零是正相关 小于零则表示负相关 其值越接近于1或-1则表示关系越紧密 越接近于零则表示其相关性越小。
相关系数计算公式


![[数学基础知识] 协方差和相关系数以及使用pandas进行自动计算 [数学基础知识] 协方差和相关系数以及使用pandas进行自动计算](http://www.mshxw.com/aiimages/31/267542.png)
