利用sklearn.StratifiedKFold函数实现K折交叉验证

定义

所谓K折交叉验证就是将数据集分为K份，先拿其中的K-1份当作训练集，另外一份当作测试集，依次进行K次（让每份数据轮流当测试集）。将K次实验的结果取平均值就是最终的结果。

StratifiedKFold函数是从sklearn模块中导出的函数，StratifiedKFold函数采用分层划分的方法（分层随机抽样思想），验证集中不同类别占比与原始样本的比例保持一致，故StratifiedKFold在做划分的时候需要传入标签特征。

参数

StratifiedKFold函数共有三个参数：

n_splits：默认为3，表示将数据划分为多少份，即k折交叉验证中的k；

shuffle：默认为False，表示是否需要打乱顺序，这个参数在很多的函数中都会涉及，如果设置为True，则会先打乱顺序再做划分，如果为False，会直接按照顺序做划分；

random_state：默认为None，表示随机数的种子，只有当shuffle设置为True的时候才会生效。当设定某个值时，模型的训练集和测试集就固定了，方便复现结果。

举例

import numpy as np
rs = np.random.randint(0,1000,1)[0]  # 在0-999中随机取一个数
from sklearn.model_selection import StratifiedKFold
X = np.array([[1,2],[3,4],[1,2],[3,4],[5,9],[1,5],[3,9],[5,8],[1,1],[1,4]])
y = np.array([0, 1, 1, 1, 0, 0, 1, 0, 1, 0])  

# print('X:',X)
# print('y:',y)

kf = StratifiedKFold(n_splits=5,shuffle=True,random_state=1111)  # 五折交叉验证，随机种子取为1111
print(kf)
#做split时既要传入数据，也要传入标签
for train_index, test_index in kf.split(X,y):
    print("TRAIN:", train_index, "TEST:", test_index)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

在用StratifiedKFold函数时，因为在split时，分的测试集和训练集中的正样本、负样本比例和原数据集中的正样本、负样本比例要相同，所以在选择K的时候要考虑能否正确的划分测试集、训练集！！！

利用sklearn.StratifiedKFold函数实现K折交叉验证

Python相关栏目本月热门文章