python数据分析需要掌握的内容(python数据分析报告总结)

本文仅对数据分析过程常用python语句进行简单的回顾与总结，部分函数的参数暂且省略，后续可能再完善。
如有错误之处还望指正。

一、数据集 1、导入数据集

(1) 小规模数据集

sklearn.datasets.load_*()
## *可换为具体数据集名称,参数：subset=train表示只要训练的部分(下同)

(2)大规模数据集

sklearn.datasets.fetch_*()

2、数据集划分

sklearn.model_selection.train_test_split(dataset.data,datset.target,test_size=0.2,random_state=2)
#依次返回xtrain,xtest,ytrain,ytest

二、特征工程 step1 特征抽取（后续更新） step2 特征与处理

(1) 归一化

sklearn.preprocessing.MinMaxScaler(feacture_range=(0,1))
MinMaxScaler.fit_transform(X)

(2) 标准化

sklearn.preprocessing.StandardScaler()

step3 特征降维

(1) 特征选择
①低方差过滤

sklearn.feacture_selection.VarianceThreshold(threshold=0.0)

②相关系数

from scipy.stats import pearsonr
r=pearsonr(x1,x2)

补充：若r偏大，可以：

x1,x2取其一x1,x2加权求和主成分分析

(2) 主成分分析（PCA）

sklearn.decomposition.PCA(n_components=None)
#n_components为浮点数，表示保留百分之几的信息
#n_components为整数，表示减少的特征数量

三、转化器与预估器概念 1.转化器：

fit_transform：fit→transform

2.预估器：

(1) 实例一个estimater
(2) estimater.fit(xtrain,ytrain)
(3) 评估：
① 法1：直接对比
② 法2：准确率

accuracy=estimater.score(xtest,ytest)

四、分类 1、K近邻（KNN）

estimator=sklearn.neighborsClassifier(n=neighbors=5)

参数网格调优：

sklearn.model_selection.GirdSearchCV(estimator)

2、朴素贝叶斯

sklearn.naive_bayes.MultinomalNB(alpha=1.0)

3、决策树

sklearn.tree.decisionTreeClassifier()

4、随机森林

sklearn.ensemble.RandomForeatClassifier()

五、聚类 1、K-means

sklearn.cluster.KMeans(n_clusters=8)