首先,仅靠召回可能并不好。通过将所有内容都归为肯定类,您可以简单地实现100%的召回率。我通常建议使用AUC选择参数,然后找到您感兴趣的工作点阈值(例如给定的精度水平)。
对于如何
class_weight作品:它惩罚失误的样品
class[i]用
class_weight[i]的,而不是1。所以高类的重量意味着要更多地强调的一类。从您看来,类0的发生频率是类1的19倍。因此,您应该
class_weight相对于类0增加类1的频率,例如{0:.1,1:.9}。如果
class_weight不等于1,则基本上会更改正则化参数。
对于如何
class_weight="auto"工作,您可以看一下这个讨论。在开发版本中,您可以使用
class_weight="balanced",它更容易理解:从本质上讲,它意味着复制较小的类,直到您拥有与较大的类一样多的样本为止,但是是以隐式的方式进行的。



