一、数据集 1、导入数据集本文仅对数据分析过程常用python语句进行简单的回顾与总结,部分函数的参数暂且省略,后续可能再完善。
如有错误之处还望指正。
(1) 小规模数据集
sklearn.datasets.load_*() ## *可换为具体数据集名称,参数:subset=train表示只要训练的部分(下同)
(2)大规模数据集
sklearn.datasets.fetch_*()2、数据集划分
sklearn.model_selection.train_test_split(dataset.data,datset.target,test_size=0.2,random_state=2) #依次返回xtrain,xtest,ytrain,ytest二、特征工程 step1 特征抽取(后续更新) step2 特征与处理
(1) 归一化
sklearn.preprocessing.MinMaxScaler(feacture_range=(0,1)) MinMaxScaler.fit_transform(X)
(2) 标准化
sklearn.preprocessing.StandardScaler()step3 特征降维
(1) 特征选择
①低方差过滤
sklearn.feacture_selection.VarianceThreshold(threshold=0.0)
②相关系数
from scipy.stats import pearsonr r=pearsonr(x1,x2)
补充:若r偏大,可以:
x1,x2取其一x1,x2加权求和主成分分析
(2) 主成分分析(PCA)
sklearn.decomposition.PCA(n_components=None) #n_components为浮点数,表示保留百分之几的信息 #n_components为整数,表示减少的特征数量三、转化器与预估器概念 1.转化器:
fit_transform:fit→transform
2.预估器:(1) 实例一个estimater
(2) estimater.fit(xtrain,ytrain)
(3) 评估:
① 法1:直接对比
② 法2:准确率
accuracy=estimater.score(xtest,ytest)四、分类 1、K近邻(KNN)
estimator=sklearn.neighborsClassifier(n=neighbors=5)
参数网格调优:
sklearn.model_selection.GirdSearchCV(estimator)2、朴素贝叶斯
sklearn.naive_bayes.MultinomalNB(alpha=1.0)3、决策树
sklearn.tree.decisionTreeClassifier()4、随机森林
sklearn.ensemble.RandomForeatClassifier()五、聚类 1、K-means
sklearn.cluster.KMeans(n_clusters=8)



