Replies: 1 comment
-
同学你好,你这个是反馈的哪个项目的哪个文档,能麻烦附一下链接么,我好去联系对应的负责人处理,谢谢🌹 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
原文如下:
6. 解释一下排序提升
在传统的GBDT框架当中,构建下一棵树分为两个阶段:选择树结构和在树结构固定后计算叶子节点的值。CatBoost主要在第一阶段进行优化。在建树的阶段,CatBoost有两种提升模式,Ordered和Plain。Plain模式是采用内建的ordered TS对类别型特征进行转化后的标准GBDT算法。Ordered则是对Ordered boosting算法的优化。
而决策树之间boosting的梯度计算方式“ordered boosting” 和 决策树创建过程中的“ordered”模式 似乎不是一回事:
正确的应该是这样吧
Ordered Boosting 是 CatBoost 算法的核心提升方法。它的基本思想是通过顺序地构建一系列弱学习器(通常是决策树)来构建一个强学习器。在这个过程中,它计算梯度的方式很特别,会考虑到数据的顺序来减少偏差。
例如,在计算每个样本的梯度估计时,为了得到无偏梯度估计,CatBoost 对每一个样本都会训练一个单独的模型,这个模型由使用不包含该样本的训练集训练得到。然后用这个模型来得到关于样本的梯度估计,再使用该梯度来训练基学习器。这种基于顺序和特殊梯度计算的方式来构建模型的过程就是 Ordered Boosting 方法的核心。
建树时的 Ordered 模式,主要是在构建决策树过程中对数据和特征的处理方式。在这个模式下,数据会根据一定的规则进行排序,并且在决策树的每个节点中,对分类特征的处理会利用这种排序信息。
比如,对于分类特征,会计算基于顺序的目标统计量。这个统计量会考虑当前节点的样本中每个类别出现的频率以及父节点的类别统计量等信息,并且结合数据的排序信息来决定如何划分决策树的节点。它更侧重于在决策树构建阶段,利用数据的顺序来优化特征的利用和节点的划分。
如果我说的不对,请赐教
Beta Was this translation helpful? Give feedback.
All reactions