Skip to content

Commit

Permalink
Remanier
Browse files Browse the repository at this point in the history
  • Loading branch information
oliviermeslin committed Jan 15, 2025
1 parent da3b6d5 commit 90e53b1
Showing 1 changed file with 3 additions and 1 deletion.
4 changes: 3 additions & 1 deletion chapters/chapter3/3-guide_usage_GB.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -70,7 +70,9 @@ Voici une présentation des principaux hyperparamètres et de leurs effets sur l

- La __complexité des arbres__: la profondeur maximale des arbres, le nombre de feuilles terminales et le nombre minimal d'observations par feuille terminale contrôlent la complexité des _weak learners_: une profondeur élevée, un grand nombre de feuilles et un faible nombre d'observations par feuille terminale aboutissent à des arbres complexes au pouvoir prédictif plus élevé, mais induisent un risque de surajustement. Par ailleurs, de tels arbres sont plus longs à entraîner que des arbres peu profonds avec un nombre limité de feuilles.

- La __lutte contre le surajustement__: les pénalisations quadratique et absolue et le gain minimal nécessaire pour diviser un noeud sont des hyperparamètres de régularisation qui jouent un rôle important dans le contrôle de la complexité des _weak learners_ et contribuent à éviter le surajustement. Les pénalisations tendent à réduire le poids $w_j$ des feuilles terminales: la pénalisation quadratique réduit la valeur absolue des poids sans les annuler (il s'agit de $\lambda$ dans l'[équation donnant le poids optimal](4-boosting.qmd#eq-w-j-optimal) d'une feuille terminale), tandis que la pénalisation absolue élevée pousse certains poids à être nuls. La pénalisation quadratique est la plus utilisée, notamment parce qu'elle permet d'amoindrir l'influence des points aberrants. Le gain minimal définit la quantité minimale de réduction de la perte requise pour qu'un nœud soit divisé (il s'agit du paramètre $\gamma$ dans l'[équation donnant le gain potentiel d'un _split_](4-boosting.qmd#eq-fct-eval-split)); il contribue à réduire la complexité des arbres et à limiter le surajustement en empêchant l'algorithme de créer des _splits_ dont l'apport est très faible et probablement dû à de petites variations non significatives des données d'entraînement.
- La __lutte contre le surajustement__: ces hyperparamètres de régularisation jouent un rôle important dans le contrôle de la complexité des _weak learners_ et contribuent à éviter le surajustement:
- Les pénalisations tendent à réduire le poids $w_j$ des feuilles terminales: la pénalisation quadratique réduit la valeur absolue des poids sans les annuler (il s'agit de $\lambda$ dans l'[équation donnant le poids optimal](4-boosting.qmd#eq-w-j-optimal) d'une feuille terminale), tandis que la pénalisation absolue élevée pousse certains poids à être nuls. La pénalisation quadratique est la plus utilisée, notamment parce qu'elle permet d'amoindrir l'influence des points aberrants.
- Le gain minimal définit la quantité minimale de réduction de la perte requise pour qu'un nœud soit divisé (il s'agit du paramètre $\gamma$ dans l'[équation donnant le gain potentiel d'un _split_](4-boosting.qmd#eq-fct-eval-split)); il contribue à réduire la complexité des arbres et à limiter le surajustement en empêchant l'algorithme de créer des _splits_ dont l'apport est très faible et potentiellement dû à des variations non significatives des données d'entraînement.

- Les __hyperparamètres d'échantillonnage__:
- le taux d'échantillonnage des données d'entraînement et le taux d'échantillonnage des colonnes par noeud jouent exactement le même rôle que `sample.fraction` ou `max_samples`, et `mtry` dans la forêt aléatoire: échantillonner les données d'entraînement accélère l'entraînement, et échantillonner les colonnes au niveau de chaque noeud aboutit à des arbres plus variés. Il est à noter que l'échantillonnage des données se fait systématiquement sans remise. Comme pour la forêt aléatoire, la valeur optimale du taux d'échantillonnage des colonnes par noeud dépend du nombre de variables réellement pertinentes dans les données, et une valeur plus élevée est préférable si les données comprennent un grand nombre de variables binaires issues du _one-hot-encoding_ des variables catégorielles.
Expand Down

0 comments on commit 90e53b1

Please sign in to comment.