Skip to content

Commit

Permalink
Built site for gh-pages
Browse files Browse the repository at this point in the history
  • Loading branch information
Quarto GHA Workflow Runner committed Feb 15, 2024
1 parent 30cf697 commit 5cc4f88
Show file tree
Hide file tree
Showing 12 changed files with 309 additions and 3 deletions.
2 changes: 1 addition & 1 deletion .nojekyll
Original file line number Diff line number Diff line change
@@ -1 +1 @@
5c85c582
e8855ec4
112 changes: 112 additions & 0 deletions search.json
Original file line number Diff line number Diff line change
Expand Up @@ -223,6 +223,118 @@
"section": "Exemple 1: enjeux",
"text": "Exemple 1: enjeux\n\nQuestions sur la qualité : sous-champ de la population (clients d’un opérateur en particulier) donc biais de sélection à corriger pour s’assurer de la validité (partielle) des résultats;\n\n\n\nQuestions sur la pérennité : l’Insee n’a donc aucun contrôle sur des possibles changements de format ou de méthode de collection des données. Pas de garantie que les indicateurs restent comparables au cours du temps.\n\n\n\n\nQuestions d’éthique : avant d’utiliser ces données personnelles, il faut s’assurer que l’usage qui en est fait est proportionné et que la production statistique qui en résulte a une valeur ajoutée pour la population.\n\n\n\n\nQuestions légales : aujourd’hui la législation européenne et son application dans la loi française ne sont pas favorables à l’utilisation de données téléphoniques de signalisation pour la statistique publique"
},
{
"objectID": "slides/index.html#introduction",
"href": "slides/index.html#introduction",
"title": "Nouvelles sources de données pour la statistique publique",
"section": "Introduction",
"text": "Introduction\n\nLe traitement du texte et du langage est un des domaines de recherche les plus actifs en sciences des données\nBeaucoup d’applications potentielles pour la statistique publique:\n\nDonnées d’enquête\nDonnées administratives\nDonnées privées mobilisables pour la statistique publique\n\nTraitement automatique: fait référence à des tâches variées"
},
{
"objectID": "slides/index.html#collecte-12",
"href": "slides/index.html#collecte-12",
"title": "Nouvelles sources de données pour la statistique publique",
"section": "Collecte (1/2)",
"text": "Collecte (1/2)\n\nWebscraping: extraction du contenu de sites Internet\nInformation textuelle très riche sur Internet, mobilisable à des fins de statistique publique\nEnjeux:\n\nTechniques: évolution des pages web, interactivité des sites\nLégaux: directives de 2020 de la CNIL, pas de scraping sans prévenir\n\nBonnes pratiques: robots.txt\nAPI: mode préférentiel de collecte de données"
},
{
"objectID": "slides/index.html#collecte-22",
"href": "slides/index.html#collecte-22",
"title": "Nouvelles sources de données pour la statistique publique",
"section": "Collecte (2/2)",
"text": "Collecte (2/2)\n\nEn pratique:\n\nPython: BeautifulSoup (parser), Scrapy (crawler)\nR: httr, rvest, polite\nSelenium: outils d’automatisation"
},
{
"objectID": "slides/index.html#modèles-de-langage-12",
"href": "slides/index.html#modèles-de-langage-12",
"title": "Nouvelles sources de données pour la statistique publique",
"section": "Modèles de langage (1/2)",
"text": "Modèles de langage (1/2)\n\nEncoder l’information présente dans un texte:\n\nMatrice document-terme: représentation sparse\nEmbeddings: représentation dense\n\nExemple de word2vec"
},
{
"objectID": "slides/index.html#modèles-de-langage-22",
"href": "slides/index.html#modèles-de-langage-22",
"title": "Nouvelles sources de données pour la statistique publique",
"section": "Modèles de langage (2/2)",
"text": "Modèles de langage (2/2)\n\nAujourd’hui, les meilleurs modèles de langage reposent sur une même architecture de réseaux de neurone: le Transformer\nEmbeddings des mots qui composent un texte deviennent contextuels\nBoom des modèle de langage “génératifs”"
},
{
"objectID": "slides/index.html#applications-pour-la-statistique-publique",
"href": "slides/index.html#applications-pour-la-statistique-publique",
"title": "Nouvelles sources de données pour la statistique publique",
"section": "Applications pour la statistique publique",
"text": "Applications pour la statistique publique\n\nClassification dans des nomenclatures:\n\nProfession (enquêtes, recensement de la population)\nActivité des entreprises\nProduits de consommation\n\nAppariements\nExtraction automatique de contenu au sein de documents textuels\nModèles de langage génératifs: assistants de code, etc."
},
{
"objectID": "slides/index.html#représentation-12",
"href": "slides/index.html#représentation-12",
"title": "Nouvelles sources de données pour la statistique publique",
"section": "Représentation (1/2)",
"text": "Représentation (1/2)\n\nImage en noir et blanc: matrice de dimension \\(L \\times W\\)\nPlusieurs encodages possibles: valeurs entières entre 0 et 255 (uint8), valeurs flottantes entre 0 et 1, etc."
},
{
"objectID": "slides/index.html#représentation-22",
"href": "slides/index.html#représentation-22",
"title": "Nouvelles sources de données pour la statistique publique",
"section": "Représentation (2/2)",
"text": "Représentation (2/2)\n\nImage en couleurs: matrice de dimension \\(L \\times W \\times 3\\)"
},
{
"objectID": "slides/index.html#vision-par-ordinateur-12",
"href": "slides/index.html#vision-par-ordinateur-12",
"title": "Nouvelles sources de données pour la statistique publique",
"section": "Vision par ordinateur (1/2)",
"text": "Vision par ordinateur (1/2)\n\nTechniques qui permettent à des machines d’acquérir une compréhension d’images ou de vidéos numériques\n1973: détection de contours"
},
{
"objectID": "slides/index.html#vision-par-ordinateur-22",
"href": "slides/index.html#vision-par-ordinateur-22",
"title": "Nouvelles sources de données pour la statistique publique",
"section": "Vision par ordinateur (2/2)",
"text": "Vision par ordinateur (2/2)\n\nOn définit les images suivantes:\n\n\\[\nG_x = \\begin{bmatrix}\n+1 & 0 & -1\\\\\n+2 & 0 & -2\\\\\n+1 & 0 & -1\n\\end{bmatrix} \\star A \\quad \\text{et} \\quad G_y = \\begin{bmatrix}\n+1 & +2 & +1\\\\\n0 & 0 & 0\\\\\n-1 & -2 & -1\n\\end{bmatrix} \\star A\n\\]\navec \\(\\star\\) l’opérateur de convolution 2-dimensionnel en traitement du signal - Alors \\(G = \\sqrt{G_x^2 + G_y^2}\\): représentation des contours de l’image \\(A\\)"
},
{
"objectID": "slides/index.html#opérateur-de-convolution",
"href": "slides/index.html#opérateur-de-convolution",
"title": "Nouvelles sources de données pour la statistique publique",
"section": "Opérateur de convolution",
"text": "Opérateur de convolution\n\nIllustration de l’opérateur de convolution 2-dimensionnel \\(\\star\\). Le noyau (matrice en bleu sur le dessin) est multiplié par -1 et glisse sur la matrice de gauche. Une multiplication élément par élément est faite sur chaque sous-matrice de la taille du noyau. Pour chacune de ces multiplication, les coefficients sont ensuite sommés pour donner une valeur de sortie unique. Par exemple ici, la valeur du pixel en vert correspond au calcul \\(3 = 1*(-1) + 1*1 + 1*2 + 1*1\\)."
},
{
"objectID": "slides/index.html#réseaux-de-neurones-convolutifs",
"href": "slides/index.html#réseaux-de-neurones-convolutifs",
"title": "Nouvelles sources de données pour la statistique publique",
"section": "Réseaux de neurones convolutifs",
"text": "Réseaux de neurones convolutifs\n\nIllustration d’une succession de séquences d’un réseau convolutionnel. Emprunté à https://www.analyticsvidhya.com/blog/2022/01/convolutional-neural-network-an-overview/"
},
{
"objectID": "slides/index.html#segmentation-sémantique-détection-dobjets",
"href": "slides/index.html#segmentation-sémantique-détection-dobjets",
"title": "Nouvelles sources de données pour la statistique publique",
"section": "Segmentation sémantique, détection d’objets",
"text": "Segmentation sémantique, détection d’objets\n\nTâches classiques de vision"
},
{
"objectID": "slides/index.html#eo-data-12",
"href": "slides/index.html#eo-data-12",
"title": "Nouvelles sources de données pour la statistique publique",
"section": "EO data (1/2)",
"text": "EO data (1/2)\n\nDonnées provenant de satellites, mais photographies prises depuis un avion, etc.\nBeaucoup de données ouvertes ou semi-ouvertes (NASA: Landsat, ESA: Sentinel, Airbus: Pleiades)\nRésolution spatiale variable (de haute: 10m, à très haute: 0.5m)\nRésolution spectrale variable\nCouverture régulière des territoires (par exemple tous les 5j pour Sentinel-2)\nRisques et difficultés: résultats robustes, disponibilité, temps de calcul, résolution adaptée"
},
{
"objectID": "slides/index.html#eo-data-22",
"href": "slides/index.html#eo-data-22",
"title": "Nouvelles sources de données pour la statistique publique",
"section": "EO data (2/2)",
"text": "EO data (2/2)\n\nCas d’usage potentiels multiples: supervision des forêts, de l’agriculture, des masses d’eau, supervision de l’urbanisation et des infrastructures, étude de la pollution environnementale, etc.\nAujourd’hui:\n\nCalcul de statistiques sur l’occupation et l’usage des sols (consolidation de l’enquête Teruti)\nMise à jour du répertoire de logements dans les DROM\nConsolidation des statistiques sur les vergers issues de l’enquête sur la structure des exploitations agricoles"
},
{
"objectID": "slides/index.html#ocr-et-extraction",
"href": "slides/index.html#ocr-et-extraction",
"title": "Nouvelles sources de données pour la statistique publique",
"section": "OCR et extraction",
"text": "OCR et extraction\n\nOCR: reconnaissance optique de caractères\nDocuments scannés ou photographiés exploitables pour la statistique publique:\n\nComptes annuels des entreprises\nPhotographies de tickets de caisse pour l’enquête Budget de Famille\n\nExtraction d’information structurée: cas des tableaux"
},
{
"objectID": "slides/index.html#bibliographie",
"href": "slides/index.html#bibliographie",
Expand Down
2 changes: 1 addition & 1 deletion sitemap.xml
Original file line number Diff line number Diff line change
Expand Up @@ -2,6 +2,6 @@
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://InseeFrLab.github.io/cours-nouvelles-donnees-slides/slides/index.html</loc>
<lastmod>2024-02-14T11:19:41.750Z</lastmod>
<lastmod>2024-02-15T16:57:13.702Z</lastmod>
</url>
</urlset>
Binary file added slides/img/bike.jpg
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added slides/img/bike_sobel.jpg
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added slides/img/convol.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added slides/img/python_blue.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added slides/img/python_green.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added slides/img/python_pixels.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added slides/img/python_red.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added slides/img/rgb_image.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading

0 comments on commit 5cc4f88

Please sign in to comment.