relecture collect

InseeFrLab · Jan 13, 2025 · 2559c68 · 2559c68
1 parent 798e3d2
commit 2559c68
Show file tree

Hide file tree

Showing 2 changed files with 18 additions and 18 deletions.
diff --git a/slides/_admin.qmd b/slides/_admin.qmd
@@ -3,8 +3,8 @@
 ## Contexte {.smaller}
 
 - Baisse généralisée des taux de réponse aux enquêtes [@LuitenHoxde; @beck2022] :
-    + Enquête "Cadre de vie et sécurité" : 72% (2012) à 66% (2021)
-    + SRCV : 85% (2010) à 80% (2019)
+    + Enquête "Cadre de vie et sécurité" : 72 % (2012) à 66 % (2021)
+    + SRCV : 85 % (2010) à 80 % (2019)
 
 . . .
 

diff --git a/slides/collecte.qmd b/slides/collecte.qmd
@@ -9,34 +9,34 @@
 
 ## Webscraping (1/3)
 
-- [**Webscraping**]{.orange}: extraction du contenu de sites Internet
+- [**Webscraping**]{.orange} : extraction du contenu de sites Internet
 - Information textuelle [**très riche**]{.orange} sur Internet, mobilisable à des fins de statistique publique
-- [**Enjeux**]{.orange}:
-    - [**Techniques**]{.blue2}: évolution des pages web, interactivité des sites
-    - [**Légaux**]{.blue2}: jurisprudences, directives de 2020 de la CNIL
-- [**Bonnes pratiques**]{.orange}: `robots.txt`
+- [**Enjeux**]{.orange} :
+    - [**Techniques**]{.blue2} : évolution des pages web, interactivité des sites
+    - [**Légaux**]{.blue2} : jurisprudences, directives de 2020 de la CNIL
+- [**Bonnes pratiques**]{.orange} : `robots.txt`
 
 ## Webscraping (2/3)
 
-- [**En pratique**]{.orange}:
-    - `Python`: `BeautifulSoup` (parser), `Scrapy` (crawler)
-    - `R`: `httr`, `rvest`, `polite`
-    - `Selenium`: outils d'automatisation
+- [**En pratique**]{.orange} :
+    - `Python` : `BeautifulSoup` (parser), `Scrapy` (crawler)
+    - `R` : `httr`, `rvest`, `polite`
+    - `Selenium` : outils d'automatisation
 - [**Excellente formation** d'Antoine Palazzolo](https://inseefrlab.github.io/formation-webscraping/)
 
 ## Webscraping (3/3)
 
-- Prix dans le [**domaine de l'hôtellerie**]{.orange}: scraping du site [Booking.com](https://www.booking.com/)
-- Vente d'[**articles électroniques**]{.orange}:
-    - [boulanger](https://www.boulanger.com/)
+- Prix dans le [**domaine de l'hôtellerie**]{.orange} : scraping du site [Booking.com](https://www.booking.com/)
+- Vente d'[**articles électroniques**]{.orange} :
+    - [Boulanger](https://www.boulanger.com/)
     - [Rue du commerce](https://www.rueducommerce.fr/)
-- Scraping du [**site de la SNCF**]{.orange}: collecte quotidienne pour capter la volatilité des prix
+- Scraping du [**site de la SNCF**]{.orange} : collecte quotidienne pour capter la volatilité des prix
 
 ## Utilisation d'API
 
-- [**API**]{.orange}: interface de programmation
-- Mode [**préférentiel**]{.orange} de collecte de données:
+- [**API**]{.orange} : interface de programmation
+- Mode [**préférentiel**]{.orange} de collecte de données :
     - Plus de garanties sur [**la qualité**]{.blue2}
     - [**Reproductibité**]{.blue2}
     - ...
-- Avec `Python`: `requests`
+- Avec `Python` : `requests`