From 483798ed5d44483bcc972b22a2f9084a73bb613f Mon Sep 17 00:00:00 2001 From: oliviermeslin Date: Mon, 7 Oct 2024 16:56:46 +0000 Subject: [PATCH] Remove headers --- chapters/chapter2/CART.qmd | 12 --------- chapters/chapter2/bagging.qmd | 20 -------------- chapters/chapter2/random_forest.qmd | 42 ----------------------------- 3 files changed, 74 deletions(-) diff --git a/chapters/chapter2/CART.qmd b/chapters/chapter2/CART.qmd index 9af8887..858d762 100644 --- a/chapters/chapter2/CART.qmd +++ b/chapters/chapter2/CART.qmd @@ -1,15 +1,3 @@ ---- -title: "Les arbres de décision" -author: | - [Olivier Meslin](https://github.com/oliviermeslin) - [Mélina Hillion](https://github.com/melinahillion) -format: - typst: - toc: true - section-numbering: 1.1.1 - bibliography: references.bib ---- - # La brique élémentaire: l'arbre de décision Les arbres de décision sont des outils puissants en apprentissage automatique, utilisés pour des tâches de classification et de régression. Ces algorithmes non paramétriques consistent à diviser l'espace des caractéristiques en sous-ensembles homogènes à l'aide de règles simples, afin de faire des prédictions. Malgré leur simplicité apparente, les arbres de décision sont capable de saisir des relations complexes et non linéaires entre les variables (ou _caractéristiques_) d'un jeu de données. diff --git a/chapters/chapter2/bagging.qmd b/chapters/chapter2/bagging.qmd index 617ecc7..4eb9029 100644 --- a/chapters/chapter2/bagging.qmd +++ b/chapters/chapter2/bagging.qmd @@ -1,23 +1,3 @@ ---- -title: "Le bagging" -author: | - [Mélina Hillion](https://github.com/melinahillion) - [Olivier Meslin](https://github.com/oliviermeslin) -format: - ams-typst: default - typst: - toc: true - section-numbering: 1.1.1 -bibliography: references.bib ---- - -```{=typst} -#import "@preview/mitex:0.2.4": * -#set math.equation( -numbering: "(1)", -supplement: none -) -``` # Le bagging Le bagging, ou "bootstrap aggregating", est une méthode ensembliste qui vise à améliorer la stabilité et la précision des algorithmes d'apprentissage automatique en réduisant la variance des prédictions (@breiman1996bagging). Elle repose sur la construction de plusieurs modèles (plusieurs versions d'un même modèle dans la plupart des cas) entraînés sur des échantillons distincts générés par des techniques de rééchantillonnage (_bootstrap_). Ces modèles sont ensuite combinés pour produire une prédiction agrégée, souvent plus robuste et généralisable que celle obtenue par un modèle unique. diff --git a/chapters/chapter2/random_forest.qmd b/chapters/chapter2/random_forest.qmd index 3725385..b2beced 100644 --- a/chapters/chapter2/random_forest.qmd +++ b/chapters/chapter2/random_forest.qmd @@ -1,45 +1,3 @@ ---- -title: "La forêt aléatoire" -author: | - [Mélina Hillion](https://github.com/melinahillion) - [Olivier Meslin](https://github.com/oliviermeslin) -format: - ams-typst: default - typst: - toc: true - section-numbering: 1.1.1 -bibliography: references.bib ---- - -```{=typst} -#import "@preview/mitex:0.2.4": * -#set math.equation( -numbering: "(1)", -supplement: none -) - -#set page("a4") - -#set text(font: "IBM Plex Sans") - -// Bold titles. -#show table.cell.where(y: 0): set text(weight: "bold") - -// Tableaux alignés à gauche, sauf première ligne centrée -#show table.cell: set align(left+horizon) -#show table.cell.where(y: 0): set align(center+horizon) - -#show figure.where( - kind: table -): set figure.caption(position: top) - -// Tableau zébré -#set table( - fill: (_, y) => if calc.odd(y) { rgb("EAF2F5") }, - stroke: 0.5pt + rgb("666675"), -) -``` - # La forêt aléatoire La forêt aléatoire (_random forests_) est une méthode ensembliste qui consiste à agréger plusieurs arbres de décision pour améliorer la précision et la robustesse des prédictions du modèle final. Cette méthode s’appuie sur la technique du bagging, qui consiste à entraîner chaque arbre sur un échantillon (_bootstrap_) tiré au hasard à partir du jeu de données initial. Toutefois, la forêt aléatoire va plus loin en introduisant un degré supplémentaire de randomisation : pour chaque division lors de la construction d'un arbre, elle **sélectionne aléatoirement** un sous-ensemble de variables sur lequel sera fondé le critère de séparation. Cette randomisation supplémentaire **réduit la corrélation** entre les arbres, ce qui permet de renforcer la performance globale du modèle agrégé.