- 一、LDA简介
- 二、SVM简介
- 三、LDA实现代码
- 四、SVM对月亮数据集进行可视化分类
- 4.1 线性SVM
- 4.2 多项式核
- 4.3 高斯核
- 五、小结
- 六、参考
- 线性判别分析(Linear Discriminant Analysis,简称LDA)是一种经典的有监督数据降维方法。LDA的主要思想是将一个高维空间中的数据投影到一个较低维的空间中,且投影后要保证各个类别的类内方差小而类间均值差别大,这意味着同一类的高维数据投影到低维空间后相同类别的聚在一起,而不同类别之间相距较远。如下图将二维数据投影到一维直线上:
- 在机器学习中,支持向量机(SVM)是具有相关学习算法的监督学习模型,其分析用于分类和回归分析的数据。给定一组训练示例,每个示例标记为属于两个类别中的一个或另一个,SVM训练算法构建一个模型,将新示例分配给一个类别或另一个类别,使其成为非概率二元线性分类器。SVM模型是将示例表示为空间中的点,映射使得单独类别的示例除以尽可能宽的明确间隙。然后将新的示例映射到同一空间,并根据它们落在哪个边缘预测属于一个类别。
这里是采用随机数据集训练并进行训练
- 导入要使用的包
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as lda#导入LDA算法 from sklearn.datasets._samples_generator import make_classification #导入分类生成器 import matplotlib.pyplot as plt #导入画图用的工具 import numpy as np import pandas as pd
- 获得数据集并进行训练,用上面导入的make_classification函数获得数据集,里面参数意思看看备注
x,y=make_classification(n_samples=500,n_features=2,n_redundant=0,n_classes=2,n_informative=1,n_clusters_per_class=1,class_sep=0.5,random_state=100) """ n_features :特征个数= n_informative() + n_redundant + n_repeated n_informative:多信息特征的个数 n_redundant:冗余信息,informative特征的随机线性组合 n_repeated :重复信息,随机提取n_informative和n_redundant 特征 n_classes:分类类别 n_clusters_per_class :某一个类别是由几个cluster构成的 """ plt.scatter(x[:,0],x[:,1], marker='o', c=y) plt.show() x_train=x[:60, :60] y_train=y[:60] x_test=x[40:, :] y_test=y[40:]
- 可以看到这个数据集如下
- 将数据集分为训练集和测试集,分类比为6:4,训练完之后利用测试集获得准确率
#分为训练集和测试集,进行模型训练并测试
x_train=x[:300, :300]
y_train=y[:300]
x_test=x[200:, :]
y_test=y[200:]
lda_test=lda()
lda_test.fit(x_train,y_train)
predict_y=lda_test.predict(x_test)#获取预测的结果
count=0
for i in range(len(predict_y)):
if predict_y[i]==y_test[i]:
count+=1
print("预测准确个数为"+str(count))
print("准确率为"+str(count/len(predict_y)))
- 预测结果如下:
- 导入包
# 导入月亮数据集和svm方法 #这是线性svm from sklearn import datasets #导入数据集 from sklearn.svm import LinearSVC #导入线性svm from matplotlib.colors import ListedColormap from sklearn.preprocessing import StandardScaler
- 获得数据
data_x,data_y=datasets.make_moons(noise=0.15,random_state=777)#生成月亮数据集 # random_state是随机种子,nosie是方 plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1]) plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1]) data_x=data_x[data_y<2,:2]#只取data_y小于2的类别,并且只取前两个特征 plt.show()
- 可以看到数据集如下,月亮数据集是很圆滑的两个弧线,这里设置random_state,使数据没那么有规律
- 进行标准化并训练数据
scaler=StandardScaler()# 标准化 scaler.fit(data_x)#计算训练数据的均值和方差 data_x=scaler.transform(data_x) #再用scaler中的均值和方差来转换X,使X标准化 liner_svc=LinearSVC(C=1e9,max_iter=100000)#线性svm分类器,iter是迭达次数,c值决定的是容错,c越大,容错越小 liner_svc.fit(data_x,data_y)
- 写一个边界绘制函数,为下面可视化分类做准备
# 边界绘制函数
def plot_decision_boundary(model,axis):
x0,x1=np.meshgrid(
np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1),
np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100)).reshape(-1,1))
# meshgrid函数是从坐标向量中返回坐标矩阵
x_new=np.c_[x0.ravel(),x1.ravel()]
y_predict=model.predict(x_new)#获取预测值
zz=y_predict.reshape(x0.shape)
custom_cmap=ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
plt.contourf(x0,x1,zz,cmap=custom_cmap)
- 画图以及输出参数权重和模型截距
#画图并显示参数和截距
plot_decision_boundary(liner_svc,axis=[-3,3,-3,3])
plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1],color='red')
plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1],color='blue')
plt.show()
print('参数权重')
print(liner_svc.coef_)
print('模型截距')
print(liner_svc.intercept_)
- 结果如下,这种情况下线性svm效果并不好
- 第一步也是导入包,不过多了pipeline核多项式回归
# 导入月亮数据集和svm方法 #这是多项式核svm from sklearn import datasets #导入数据集 from sklearn.svm import LinearSVC #导入线性svm from sklearn.pipeline import Pipeline #导入python里的管道 from matplotlib.colors import ListedColormap import matplotlib.pyplot as plt from sklearn.preprocessing import StandardScaler,PolynomialFeatures #导入多项式回归和标准化
- 生成数据,也是月亮数据集,和线性svm一致
data_x,data_y=datasets.make_moons(noise=0.15,random_state=777)#生成月亮数据集 # random_state是随机种子,nosie是方 plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1]) plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1]) data_x=data_x[data_y<2,:2]#只取data_y小于2的类别,并且只取前两个特征 plt.show()
- 利用pipeline进行一体化编程,为了方便,将它放入函数中
def PolynomialSVC(degree,c=10):#多项式svm
return Pipeline([
# 将源数据 映射到 3阶多项式
("poly_features", PolynomialFeatures(degree=degree)),
# 标准化
("scaler", StandardScaler()),
# SVC线性分类器
("svm_clf", LinearSVC(C=10, loss="hinge", random_state=42,max_iter=10000))
])
- 进行模型训练并画图
# 进行模型训练并画图
poly_svc=PolynomialSVC(degree=3)
poly_svc.fit(data_x,data_y)
plot_decision_boundary(poly_svc,axis=[-1.5,2.5,-1.0,1.5])#绘制边界
plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1],color='red')#画点
plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1],color='blue')
plt.show()
print('参数权重')
print(poly_svc.named_steps['svm_clf'].coef_)
print('模型截距')
print(poly_svc.named_steps['svm_clf'].intercept_)
- 结果如下,这个结果还不错
- 平平无奇导入包
## 导入包 from sklearn import datasets #导入数据集 from sklearn.svm import SVC #导入svm from sklearn.pipeline import Pipeline #导入python里的管道 import matplotlib.pyplot as plt from sklearn.preprocessing import StandardScaler#导入标准化
- 导入数据也是一样的,就不贴代码了,直接进行下一步和上面多项式核一样,为了好应用,都放在函数里了,定义SVM高斯模型
def RBFKernelSVC(gamma=1.0):
return Pipeline([
('std_scaler',StandardScaler()),
('svc',SVC(kernel='rbf',gamma=gamma))
])
- 进行模型训练画出图形,这里面的gamma参数也很重要,gamma参数越大,支持向量越小,和C是差不多,改变gamma的值,判断区域会发生变化
svc=RBFKernelSVC(gamma=100)#gamma参数很重要,gamma参数越大,支持向量越小 svc.fit(data_x,data_y) plot_decision_boundary(svc,axis=[-1.5,2.5,-1.0,1.5]) plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1],color='red')#画点 plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1],color='blue') plt.show()
- 得出结果
- 初步了解和实践了LDA和SVM,作用方面的了解比之前深了几分,但原理的了解还是满浅的,需要加深原理方面的学习
线性判别分析(LDA)
线性LDA、k-means和SVM算法对数据集进行二分类可视化



