我认为使用SGDClassifier代替LinearSVC处理此类数据将是一个好主意,因为它速度更快。对于矢量化,建议您研究一下哈希转换器PR。
对于多处理:您可以跨核心分布数据集,执行
partial_fit,获取权重向量,对其求平均,然后将其分布给估计量,再次进行局部拟合。
进行平行梯度下降是一个活跃的研究领域,因此那里没有现成的解决方案。
您的数据有多少类?对于每个课程,将单独(自动)进行培训。如果您拥有与内核几乎一样多的类,则通过
n_jobs在SGDClassifier中指定,每个内核仅执行一个类可能会更好,更容易。



