# -*-encoding=utf-8-*-
#导入pandas与numpy工具包
import numpy as np
import pandas as pd
#创建特征列表
column_names = ['Sample code number','Clump Thickness','Uniformity of Cell Size','Uniformity of Cell Shape','Marginal Adhesion','Single Epithelial Cell Size','Bare NUclei','Bland Chromation','Normal Nucleoli','Mitoses','Class']
#使用pandas.read_csv函数从互联网读取指定数据
data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data',names=column_names)
#将?替换为标准缺失值表示
data = data.replace(to_replace='?',value=np.nan)
#丢弃带有缺失值的数据(只要有一个维度缺失) how='all'(全为空值) axis=0(行)1(列)
data = data.dropna(axis=0,how='any')
#输出data的数据量和维度
data.shape
#使用sklearn.cross_valiation里的train_test_split模块用于分割数据
from sklearn.model_selection import train_test_split
#随机采样25%的数据用于测试,剩下的75%的数据用于构建训练集合
X_train,X_test,Y_train,Y_test = train_test_split(data[column_names[1:10]],data[column_names[10]],test_size=0.25,random_state=33)
#查验训练样本中的数量和类别分布
Y_train.value_counts()
#查验测试样本中的数量和类别分布
Y_test.value_counts()
#从sklearn.preprocessing里导入StandardScaler
from sklearn.preprocessing import StandardScaler
#从sklearn.preprocessing里导入LogisticRegression
from sklearn.linear_model import LogisticRegression
#标准化数据,保证每个维度的特征数据方差为1 ,均值为0,使得预测结果不会被某些维度过大的特征值而主导
ss=StandardScaler()
X_train = ss.fit_transform(X_train)
X_test = ss.transform(X_test)
#初始化LogisticRegression
lr = LogisticRegression()
#调用LogisticRegression中的fit函数/模块用来训练模型参数
lr.fit(X_train,Y_train)
#使用训练好的模型lr对X_test进行预测,结果存储在变量lr_y_predict中
lr_y_predict = lr.predict(X_test)
# 使用sklearn.metrics中的confusion_matrix函数生成混淆矩阵
from sklearn.metrics import confusion_matrix
conf_mat = confusion_matrix(Y_test,lr_y_predict)
print(conf_mat)
#从Sklearn.metrics里导入classification_report模块
from sklearn.metrics import classification_report
#使用逻辑斯蒂回归模型自带的评分系统score获得模型在测试集上的准确性结果
print('Accuracy of LR Classifier:',lr.score(X_test,Y_test))
#利用classification_report模块获得LogistcRegression其它三个指标的结果
print(classification_report(Y_test,lr_y_predict,target_names=['Bengin','Malignant']))