TLDR: 两者都尝试!
在数据集不平衡之前,我曾遇到过类似情况。我使用train_test_split或KFold通过。
但是,一旦我偶然发现了处理不平衡数据集的问题,便遇到了过度平衡和欠平衡的技术。为此,我建议使用库:imblearn
您将在其中找到各种技巧来处理其中一个类别的人数超过另一个类别的情况。我个人经常使用SMOTE,并且在这种情况下取得了相对较好的成功。
其他参考:
https://www.analyticsvidhya.com/blog/2017/03/imbalanced-classification-
problem/
https://towardsdatascience.com/handling-imbalanced-datasets-in-machine-
learning-7a0e84220f28



