Skip to content

Commit

Permalink
Merge pull request #3 from InseeFrLab/relecture-slides
Browse files Browse the repository at this point in the history
Relecture slides
  • Loading branch information
tomseimandi authored Feb 20, 2024
2 parents fad0f20 + d238943 commit 35023a4
Show file tree
Hide file tree
Showing 3 changed files with 58 additions and 58 deletions.
46 changes: 23 additions & 23 deletions slides/_admin.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -2,16 +2,16 @@

## Contexte {.smaller}

- Baisse généralisée des taux de réponse aux enquêtes [@LuitenHoxde; @beck2022]
+ Enquête "Cadre de vie et sécurité": 72% (2012) à 66% (2021).
- Baisse généralisée des taux de réponse aux enquêtes [@LuitenHoxde; @beck2022]:
+ Enquête "Cadre de vie et sécurité": 72% (2012) à 66% (2021)
+ SRCV: 85% (2010) à 80% (2019)

. . .

- Données statistiques traditionnelles (sondage ou recensement) produites pour informer :
- Données statistiques traditionnelles (sondage ou recensement) produites pour informer:
+ Cette finalité guide la conception
+ Mesurer le plus objectivement possible un phénomène cible
+ Processus de réflexion en amont, échantillonnage _ad hoc_, post traitement...
+ Processus de réflexion en amont, échantillonnage _ad hoc_, post-traitement...

. . .

Expand All @@ -26,15 +26,15 @@
- Aspect transactionnel

- Donnée n’est stabilisée qu’après plusieurs cycles de gestion
+ Continuité, au niveau de l’unité statistique, ne va pas de soi.
+ Continuité, au niveau de l’unité statistique, ne va pas de soi

::: {.callout-note}
## La collecte devient un processus vivant

- Données mises à jour à plusieurs échéances
- Structure du fichier de données évolue
+ Nouveau crédit d’impôt = ajout d’une catégorie dans les déclarations fiscales
+ -> changement du fichier de gestion
+ Induit un changement du fichier de gestion

:::

Expand Down Expand Up @@ -79,21 +79,21 @@ Par exemple, les déclarations fiscales des ménages sont annuelles, avec un cal

## Aparté: les 5V s'appliquent aussi aux données administratives {.smaller}

MacKinsey définissait les propriétés du _big data_ selon 5V:
McKinsey définissait les propriétés du _big data_ selon 5V:

1. Volume: DSN > 1To de données par an ;
1. Volume: DSN > 1To de données par an

. . .

2. Vélocité: Données assurance maladie ou GIE CB sont à haute fréquence ;
2. Vélocité: Données assurance maladie ou GIE CB sont à haute fréquence

. . .

3. Variété: l’État collecte et exploite des données de natures très différentes ;
3. Variété: l’État collecte et exploite des données de natures très différentes

. . .

4. Véracité: erreurs (volontaires ou non) coûteuses permet des données de meilleure qualité que celles auto-déclarées sans contrôle ex-post ;
4. Véracité: erreurs (volontaires ou non) coûteuses permet des données de meilleure qualité que celles auto-déclarées sans contrôle ex-post

. . .

Expand All @@ -119,7 +119,7 @@ Le secret statistique crée une obligation spéciale dans le cas de données con
## Processus de production

- Place centrale d’une autorité gestionnaire, qui centralise la donnée
+ distingué de l’administration qui exploite le flux (à des fins de gestion ou d’exploitation statistique).
+ Distingué de l’administration qui exploite le flux (à des fins de gestion ou d’exploitation statistique)

| Donnée | Autorité centralisatrice |
|------|------|
Expand All @@ -143,13 +143,13 @@ Le secret statistique crée une obligation spéciale dans le cas de données con

- Données issues des fiches de paie [@Humbert2018]

![](https://inseefrlab.github.io/cours-nouvelles-donnees-site/img/images/dsn-diff.png)
![](https://inseefrlab.github.io/cours-nouvelles-donnees-site/img/images/dsn-diff.png){fig-align="center"}

## Exemple 2: SIRENE

- Répertoire d'entreprises administré par l’Insee:
+ Centralise de l’information sur 32 millions d’établissements.
+ (dont 13 millions d’établissements actifs)
+ Centralise de l’information sur 32 millions d’établissements
+ Dont 13 millions d’établissements actifs

. . .

Expand All @@ -162,21 +162,21 @@ Le secret statistique crée une obligation spéciale dans le cas de données con

## Exemple 3: Fidéli

- Assemblage de :
+ données d'origine fiscale: taxe d'habitation, fichier des propriétés bâties, déclarations de revenus, etc.
+ données d'origine sociale: prestations, etc.
+ données contextuelles sur le logement: nombre de pièces, etc.
- Assemblage de:
+ Données d'origine fiscale: taxe d'habitation, fichier des propriétés bâties, déclarations de revenus, etc.
+ Données d'origine sociale: prestations, etc.
+ Données contextuelles sur le logement: nombre de pièces, etc.

. . .

- Base de référence pour études sociodémographiques fines

## Exemple 4: le SNDS {.smaller}

- Appariement des grandes bases médico-administratives nationales, notamment :
+ les données de l’assurance maladie (base SNIIRAM) ;
+ les données des hôpitaux (base PMSI) ;
+ les causes médicales de décès (base du CépiDC de l’Inserm).
- Appariement des grandes bases médico-administratives nationales, notamment:
+ les données de l’assurance maladie (base SNIIRAM)
+ les données des hôpitaux (base PMSI)
+ les causes médicales de décès (base du CépiDC de l’Inserm)

. . .

Expand Down
28 changes: 14 additions & 14 deletions slides/_geoloc.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -39,7 +39,7 @@

![La première carte choroplèthe (Dupin, 1928)](https://upload.wikimedia.org/wikipedia/commons/thumb/3/38/Carte_figurative_de_l%27instruction_populaire_de_la_France.jpg/800px-Carte_figurative_de_l%27instruction_populaire_de_la_France.jpg)

![Une carte de la population actuelle faite avec {{< fa brands r-project >}} inspirée par ce style ([source](https://rgeo.linogaliana.fr/exercises/cartography.html))](./img/pop.png){#fig-hanno}
![Une carte de la population actuelle faite avec {{< fa brands r-project >}} inspirée par ce style ([source](https://rgeo.linogaliana.fr/exercises/cartography.html))](./img/pop.png)

:::

Expand All @@ -66,7 +66,7 @@ la librairie {{< fa brands js-square >}} `gridviz` (visible sur [Observable](htt

## Quels apports ? {.smaller}

- Calculer des indicateurs avec une granularité spatiale plus fine que les découpages administratifs ou historiques classiques.
- Calculer des indicateurs avec une granularité spatiale plus fine que les découpages administratifs ou historiques classiques:
+ Etudes territoriales
+ Aide pour les acteurs publics
+ Source d'information de contexte pour tous les acteurs (publics & privés)
Expand All @@ -84,40 +84,40 @@ la librairie {{< fa brands js-square >}} `gridviz` (visible sur [Observable](htt
+ Carte: _dataviz_ connue et compréhensible par un large spectre de publics


## Exemple 1: données de téléphonie mobile
## Exemple: données de téléphonie mobile

1. Call Detail Records (CDR)
+ Générés lors des communications actives d’un utilisateur à travers son téléphone mobile (appel, envoi de SMS, etc.);
+ Générés lors des communications actives d’un utilisateur à travers son téléphone mobile (appel, envoi de SMS, etc.)
2. Données de signalisation passive:
+ Issues des connexions _data_ automatiques
+ Collectées par les opérateurs principalement à des fins d’optimisation et de surveillance de leurs réseaux.
+ Collectées par les opérateurs principalement à des fins d’optimisation et de surveillance de leurs réseaux
+ Fréquence temporelle >> données CDR.

## Exemple 1: données de téléphonie mobile (CDR) {.smaller}
## Exemple: données de téléphonie mobile (CDR) {.smaller}

- Statistiques intéressantes sur les populations présentes et les déplacements de la population.
- Statistiques intéressantes sur les populations présentes et les déplacements de la population
+ @galiana-20: mouvements de population avant/après le confinement de 2020

![](https://inseefrlab.github.io/cours-nouvelles-donnees-site/img/geolocalized_data/confinement-deconfinement.png){fig-align="center"}

## Exemple 1: données de signalisation {.smaller}
## Exemple: données de signalisation {.smaller}

- Article _Journal of official statistics_

![](https://inseefrlab.github.io/cours-nouvelles-donnees-site/gif/paris_week_densities.gif)
![](https://inseefrlab.github.io/cours-nouvelles-donnees-site/gif/paris_week_densities.gif){fig-align="center"}

## Exemple 1: enjeux {.smaller}
## Exemple: enjeux {.smaller}

- Questions sur la qualité : sous-champ de la population (clients d’un opérateur en particulier) donc biais de sélection à corriger pour s’assurer de la validité (partielle) des résultats;
- Questions sur la qualité: sous-champ de la population (clients d’un opérateur en particulier) donc biais de sélection à corriger pour s’assurer de la validité (partielle) des résultats

. . .

- Questions sur la pérennité : l’Insee n’a donc aucun contrôle sur des possibles changements de format ou de méthode de collection des données. Pas de garantie que les indicateurs restent comparables au cours du temps.
- Questions sur la pérennité: l’Insee n’a donc aucun contrôle sur des possibles changements de format ou de méthode de collection des données. Pas de garantie que les indicateurs restent comparables au cours du temps

. . .

- Questions d’éthique : avant d’utiliser ces données personnelles, il faut s’assurer que l’usage qui en est fait est proportionné et que la production statistique qui en résulte a une valeur ajoutée pour la population.
- Questions d’éthique: avant d’utiliser ces données personnelles, il faut s’assurer que l’usage qui en est fait est proportionné et que la production statistique qui en résulte a une valeur ajoutée pour la population

. . .

- Questions légales : aujourd'hui la législation européenne et son application dans la loi française ne sont pas favorables à l’utilisation de données téléphoniques de signalisation pour la statistique publique
- Questions légales: aujourd'hui la législation européenne et son application dans la loi française ne sont pas favorables à l’utilisation de données téléphoniques de signalisation pour la statistique publique
42 changes: 21 additions & 21 deletions slides/_intro.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -2,39 +2,39 @@

## Prolifération des données

- Numérisation et innovations technologiques ont réduit le coût de production de la donnée ;
+ Volume de données produites en explosion
- Numérisation et innovations technologiques ont réduit le coût de production de la donnée
+ Volume de données produites en explosion:

. . .

- L'utilisation des statistiques n'est pas nouvelle (cf. [Desrosières](https://www.cairn.info/la-politique-des-grands-nombres--9782707165046.htm))...

. . .

- ... mais une place accrue :
+ Dans le débat public et l'action publique ([Supiot](https://www.fayard.fr/sciences-humaines/la-gouvernance-par-les-nombres-9782213681092), [Martin](https://www.cairn.info/l-empire-des-chiffres--9782200625719.htm)) ;
+ Dans les stratégies d'entreprise.
- ... mais une place accrue:
+ Dans le débat public et l'action publique ([Supiot](https://www.fayard.fr/sciences-humaines/la-gouvernance-par-les-nombres-9782213681092), [Martin](https://www.cairn.info/l-empire-des-chiffres--9782200625719.htm))
+ Dans les stratégies d'entreprise


## Diversification des données {.smaller}

- Des données de nature très différentes:
- Données structurées classiques ;
- Données géolocalisées ;
- Données textuelles et non structurées ;
- Images, sons et vidéos.
- Données structurées classiques
- Données géolocalisées
- Données textuelles et non structurées
- Images, sons et vidéos

. . .

- Besoin de nouvelles méthodes pour valoriser ces données :
- _Machine learning_ (re)devenu un outil classique ;
- Besoin de nouvelles méthodes pour valoriser ces données:
- _Machine learning_ (re)devenu un outil classique
- Réseaux de neurone pour les problèmes complexes (NLP, CV)...

::: {.callout-tip}
## Pourquoi le _machine learning_ ?

- Meilleure prise en compte des non-linéarités que statistique paramétrique ;
- Simplicité à mise en oeuvre opérationnelle ;
- Meilleure prise en compte des non-linéarités que la statistique paramétrique
- Simplicité pour la mise en oeuvre opérationnelle
- ...
:::

Expand Down Expand Up @@ -174,7 +174,7 @@ plot_power_plants = Plot.plot({
<h3>Données géolocalisées</h3>

- Données tabulaires avec une dimension spatiale supplémentaire
+ Dimension géographique prend des formes multiples:
- Dimension géographique prend des formes multiples:
+ Points, lignes, polygones...

. . .
Expand All @@ -185,18 +185,18 @@ plot_power_plants = Plot.plot({

<h3>Données textuelles et non structurées</h3>

- Techniques statistiques anciennes ([Levenshtein 1957](https://en.wikipedia.org/wiki/Levenshtein_distance), [perceptron](https://fr.wikipedia.org/wiki/Perceptron)) ;
- Techniques statistiques anciennes ([Levenshtein 1957](https://en.wikipedia.org/wiki/Levenshtein_distance), [perceptron](https://fr.wikipedia.org/wiki/Perceptron))

. . .

- Applications limitées jusqu'aux années 2010 ;
- Applications limitées jusqu'aux années 2010

. . .

- Développement très rapide de la recherche :
+ Collecte accrue : réseaux sociaux, enquêtes...
+ Baisse coûts stockage & augmentation ressources traitement ;
+ Nouvelles techniques statistiques: _webscraping_, LLM...
- Développement très rapide de la recherche:
+ Collecte accrue: réseaux sociaux, enquêtes, _webscraping_...
+ Baisse coûts stockage & augmentation ressources traitement
+ Nouvelles techniques statistiques: LLM...

. . .

Expand Down Expand Up @@ -238,7 +238,7 @@ d3.json(urlApe).then(res => {
}).join('');
const confidenceRow = `<tr>
<td colspan="2" style="text-align:left; "><em>Indice de confiance : ${IC.toFixed(3)}</em></td>
<td colspan="2" style="text-align:left; "><em>Indice de confiance: ${IC.toFixed(3)}</em></td>
</tr>`;
const tableHTML = html`
Expand Down

0 comments on commit 35023a4

Please sign in to comment.