xgboost原理_xgboost和lightGBM的区别?

什么是XGBOOST？
XGBoost代表 Extreme Gradient Boosting，是一个可扩展的分布式梯度提升决策树（GBDT）机器学习库。它提供并行树提升，是用于回归、分类和排名问题的领先机器学习库。

对于理解XGBoost来说，首先掌握XGBoost构建的机器学习概念和算法至关重要：监督机器学习，决策树，集成学习和梯度提升。

监督式机器学习使用算法来训练模型，以查找具有标签和特征的数据集中的模式，然后使用训练的模型来预测新数据集特征上的标签。

决策树创建一个模型，该模型通过评估 if-then-else true/false 特征问题的树，并估计评估做出正确决策的概率所需的最小问题数来预测标签。决策树可用于分类以预测类别，或用于回归以预测连续数值。在下面的简单示例中，决策树用于根据卧室的大小和数量（特征）估计房价（标签）。
梯度提升决策树（GBDT）是一种类似于随机森林的决策树集成学习算法，用于分类和回归。集成学习算法结合了多种机器学习算法，以获得更好的模型。

随机林和 GBDT 都构建了一个由多个决策树组成的模型。不同之处在于树木的建造和组合方式。
随机森林使用一种称为 bagging 的技术，从数据集的随机引导样本并行构建完整的决策树。最终预测是所有决策树预测的平均值。

术语"梯度提升"来自"提升"或改进单个弱模型的想法，方法是将其与许多其他弱模型相结合，以生成一个集体强模型。梯度提升是提升的扩展，其中加法生成弱模型的过程被形式化为目标函数上的梯度下降算法。梯度提升为下一个模型设置目标结果，以最大程度地减少误差。每种情况的目标结果都基于误差的梯度（因此称为梯度提升）与预测的关系。

GBDT 以迭代方式训练浅决策树的集合，每次迭代都使用前一个模型的误差残差来拟合下一个模型。最终预测是所有树预测的加权总和。随机森林"装袋"可最大限度地减少方差和过度拟合，而 GBDT"提升"可最大程度地减少偏差和欠拟合。

XGBoost 是梯度提升的可扩展且高度准确的实现，它突破了提升树算法的计算能力极限，主要是为了提高机器学习模型的性能和计算速度而构建的。使用XGBoost，树是并行构建的，而不是像GBDT那样按顺序构建。它遵循按级别划分的策略，扫描梯度值，并使用这些部分和来评估训练集中每个可能的拆分时的拆分质量。

xgboost原理_xgboost和lightGBM的区别?

Python相关栏目本月热门文章