栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

python数据分析需要掌握的内容(python数据分析报告总结)

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

python数据分析需要掌握的内容(python数据分析报告总结)

本文仅对数据分析过程常用python语句进行简单的回顾与总结,部分函数的参数暂且省略,后续可能再完善。
如有错误之处还望指正。

一、数据集 1、导入数据集

(1) 小规模数据集

sklearn.datasets.load_*()
## *可换为具体数据集名称,参数:subset=train表示只要训练的部分(下同)

(2)大规模数据集

sklearn.datasets.fetch_*()
2、数据集划分
sklearn.model_selection.train_test_split(dataset.data,datset.target,test_size=0.2,random_state=2)
#依次返回xtrain,xtest,ytrain,ytest
二、特征工程 step1 特征抽取(后续更新) step2 特征与处理

(1) 归一化

sklearn.preprocessing.MinMaxScaler(feacture_range=(0,1))
MinMaxScaler.fit_transform(X)

(2) 标准化

sklearn.preprocessing.StandardScaler()
step3 特征降维

(1) 特征选择
①低方差过滤

sklearn.feacture_selection.VarianceThreshold(threshold=0.0)

②相关系数

from scipy.stats import pearsonr
r=pearsonr(x1,x2)

补充:若r偏大,可以:

x1,x2取其一x1,x2加权求和主成分分析

(2) 主成分分析(PCA)

sklearn.decomposition.PCA(n_components=None)
#n_components为浮点数,表示保留百分之几的信息
#n_components为整数,表示减少的特征数量
三、转化器与预估器概念 1.转化器:

fit_transform:fit→transform

2.预估器:

(1) 实例一个estimater
(2) estimater.fit(xtrain,ytrain)
(3) 评估:
① 法1:直接对比
② 法2:准确率

accuracy=estimater.score(xtest,ytest)
四、分类 1、K近邻(KNN)
estimator=sklearn.neighborsClassifier(n=neighbors=5)

参数网格调优:

sklearn.model_selection.GirdSearchCV(estimator)
2、朴素贝叶斯
sklearn.naive_bayes.MultinomalNB(alpha=1.0)
3、决策树
sklearn.tree.decisionTreeClassifier()
4、随机森林
sklearn.ensemble.RandomForeatClassifier()
五、聚类 1、K-means
sklearn.cluster.KMeans(n_clusters=8)
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/772562.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号