栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

数据集:各地区化妆品销量、人口数量和人均收入

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

数据集:各地区化妆品销量、人口数量和人均收入

数据集:各地区化妆品销量、适用人数和人均收入

本文研究二元线性回归分析。

1. 数据表

先将数据保存为2.1.txt.

2. 数据预处理 2.1 导包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.formula.api import ols # 线性回归
2.2 读取数据
data = pd.read_excel('2.1.xlsx')
2.3 规范字段信息(便于绘图显示)
data=data.rename(columns={'   地区i':'i','销量(箱)yi':'Y','人口(千人) xi1':'X1','人均收入(元)xi2':'X2'})
print(data) # 预览字段信息修改后的数据

结果:

     i    Y   X1    X2
0    1  162  274  2450
1    2  120  180  3254
2    3  223  375  3802
3    4  131  205  2838
4    5   67   86  2347
5    6  169  265  3782
6    7   81   98  3008
7    8  192  330  2450
8    9  116  195  2137
9   10   55   53  2560
10  11  252  430  4020
11  12  232  372  4427
12  13  144  236  2660
13  14  103  157  2088
14  15  212  370  2605
3. 数据描述性分析
describe = data.describe()
print(describe)

结果:

               i           Y          X1           X2
count  15.000000   15.000000   15.000000    15.000000
mean    8.000000  150.600000  241.733333  2961.866667
std     4.472136   62.049289  116.829831   730.636500
min     1.000000   55.000000   53.000000  2088.000000
25%     4.500000  109.500000  168.500000  2450.000000
50%     8.000000  144.000000  236.000000  2660.000000
75%    11.500000  202.000000  350.000000  3518.000000
max    15.000000  252.000000  430.000000  4427.000000
4. 自变量与因变量线性关系预判断
plt.figure(1);
plt.scatter(data['X1'],data['Y']);
plt.xlabel('$X_1$');
plt.ylabel('$Y$');
plt.title('$X_1-Y$')
plt.figure(2);
plt.scatter(data['X2'],data['Y']);
plt.xlabel('$X_2$');
plt.ylabel('$Y$');
plt.title('$X_2-Y$')
plt.ioff();
plt.show();

图示:
X 1 − Y X_1-Y X1​−Y:各地区化妆品销量与人口数量有明显的线性相关性,说明化妆品销量与人口数量成正相关性。

X 2 − Y X_2-Y X2​−Y:各地区化妆品销量与人均收入没有明显的线性相关性,说明各地区居民经济实力并不显著影响化妆品销量。

5. 计算相关系数
print(data[['Y','X1','X2']].corr())

结果:

            Y        X1        X2
Y   1.000000  0.995492  0.639301
X1  0.995492  1.000000  0.568560
X2  0.639301  0.568560  1.000000

结论:
各地区化妆品销量与人口数量有很强的正相关性,各地区化妆品销量与人均收入没有很强的正相关性。

6. 二元线性回归分析
lm = ols('Y ~ X1 + X2', data=data).fit()
print(lm.summary())

结果:

 OLS Regression Results                            
==============================================================================
Dep. Variable:                      Y   R-squared:                       0.999
Model:                            OLS   Adj. R-squared:                  0.999
Method:                 Least Squares   F-statistic:                     5679.
Date:                Thu, 30 Sep 2021   Prob (F-statistic):           1.38e-18
Time:                        17:36:11   Log-Likelihood:                -31.281
No. Observations:                  15   AIC:                             68.56
Df Residuals:                      12   BIC:                             70.69
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      3.4526      2.431      1.420      0.181      -1.843       8.749
X1             0.4960      0.006     81.924      0.000       0.483       0.509
X2             0.0092      0.001      9.502      0.000       0.007       0.011
==============================================================================
Omnibus:                        0.227   Durbin-Watson:                   2.701
Prob(Omnibus):                  0.893   Jarque-Bera (JB):                0.412
Skew:                          -0.115   Prob(JB):                        0.814
Kurtosis:                       2.221   Cond. No.                     1.32e+04
==============================================================================

参数含义参照表

6.1 回归分析,模型检验,系数检验

模型检验:

  • 根据决定系数 R 2 R^2 R2的值,即:
R-squared:                       0.999

该模型的显著性较好。

  • 根据 F F F检验的结果:
Prob (F-statistic):           1.38e-18

取 α = 0.05 alpha=0.05 α=0.05,由于 1.38 e − 18 < α 1.38e-18 系数检验:

			   coef
X1             0.4960
X2             0.0092

观察P>|t|的两个值,均为0.000,由于小于置信水平,通常为0.05,则表明系数在统计上具有显著的关系。

6.2 多重共线性检验, DW检验
  • 根据两个变量相关系数的结果:0.568560,可以大致看出,变量间没有很强的多重共线性。
  • 根据Durbin-Watson的结果:2.701,可以得出该值在2左右,残差符合正态分布。
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/283509.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号