Skip to content

Commit

Permalink
Remanier
Browse files Browse the repository at this point in the history
  • Loading branch information
oliviermeslin committed Jan 15, 2025
1 parent 3acf2d4 commit da3b6d5
Showing 1 changed file with 4 additions and 2 deletions.
6 changes: 4 additions & 2 deletions chapters/chapter3/3-guide_usage_GB.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -72,8 +72,10 @@ Voici une présentation des principaux hyperparamètres et de leurs effets sur l

- La __lutte contre le surajustement__: les pénalisations quadratique et absolue et le gain minimal nécessaire pour diviser un noeud sont des hyperparamètres de régularisation qui jouent un rôle important dans le contrôle de la complexité des _weak learners_ et contribuent à éviter le surajustement. Les pénalisations tendent à réduire le poids $w_j$ des feuilles terminales: la pénalisation quadratique réduit la valeur absolue des poids sans les annuler (il s'agit de $\lambda$ dans l'[équation donnant le poids optimal](4-boosting.qmd#eq-w-j-optimal) d'une feuille terminale), tandis que la pénalisation absolue élevée pousse certains poids à être nuls. La pénalisation quadratique est la plus utilisée, notamment parce qu'elle permet d'amoindrir l'influence des points aberrants. Le gain minimal définit la quantité minimale de réduction de la perte requise pour qu'un nœud soit divisé (il s'agit du paramètre $\gamma$ dans l'[équation donnant le gain potentiel d'un _split_](4-boosting.qmd#eq-fct-eval-split)); il contribue à réduire la complexité des arbres et à limiter le surajustement en empêchant l'algorithme de créer des _splits_ dont l'apport est très faible et probablement dû à de petites variations non significatives des données d'entraînement.

- Les __hyperparamètres d'échantillonnage__: le taux d'échantillonnage des données d'entraînement, le taux d'échantillonnage des colonnes par arbre et le taux d'échantillonnage des colonnes par noeud servent à lutter contre le surajustement et à accélérer l'entraînement (en réduisant la taille des données). L'échantillonnage des observations par arbre et l'échantillonnage des colonnes par noeud jouent exactement le même rôle que `sample.fraction` ou `max_samples`, et `mtry` dans la forêt aléatoire. Il est à noter que l'échantillonnage des données se fait systématiquement sans remise. Comme pour la forêt aléatoire, la valeur optimale du taux d'échantillonnage des colonnes par noeud dépend du nombre de variables réellement pertinentes dans les données, et une valeur plus élevée est préférable si les données comprennent un grand nombre de variables binaires issues du _one-hot-encoding_ des variables catégorielles.

- Les __hyperparamètres d'échantillonnage__:
- le taux d'échantillonnage des données d'entraînement et le taux d'échantillonnage des colonnes par noeud jouent exactement le même rôle que `sample.fraction` ou `max_samples`, et `mtry` dans la forêt aléatoire: échantillonner les données d'entraînement accélère l'entraînement, et échantillonner les colonnes au niveau de chaque noeud aboutit à des arbres plus variés. Il est à noter que l'échantillonnage des données se fait systématiquement sans remise. Comme pour la forêt aléatoire, la valeur optimale du taux d'échantillonnage des colonnes par noeud dépend du nombre de variables réellement pertinentes dans les données, et une valeur plus élevée est préférable si les données comprennent un grand nombre de variables binaires issues du _one-hot-encoding_ des variables catégorielles.
- L'échantillonnage des colonnes par arbre sert essentiellement à accélérer l'entraînement. Si les colonnes sont échantillonnées par arbre et par noeud, alors le taux d'échantillonnage final est le produit des deux taux.

- Les __réglages relatifs au retraitement des colonnes__:
- le nombre de _bins_ utilisés pour discrétiser les variables continues (voir partie PREPROCESSING pour le détail): un faible de _bins_ contribue à accélérer l'entraînement (car le nombre de _splits_ potentiels est faible), mais peut dégrader le pouvoir prédictif si de faibles variations de la variable continue ont un impact notable sur la variable-cible. Inversement, une valeur élevée permet de conserver davantage d'information sur la distribution de la variable continue, mais peut ralentir l'entraînement.
- le nombre de modalités en-deça duquel les variables catégorielles font l'objet d'un _one-hot-encoding_ et le nombre maximal de _splits_ considérés dans le traitement des variables catégorielles définissent la méthode utilisée pour traiter les variables catégorielles (voir partie PREPROCESSING pour le détail).
Expand Down

0 comments on commit da3b6d5

Please sign in to comment.