Skip to content

Commit

Permalink
Merge branch 'gh-pages' into Issue-3468
Browse files Browse the repository at this point in the history
  • Loading branch information
charlottejmc authored Jan 30, 2025
2 parents 98997bc + 2290f6e commit f34a5ef
Show file tree
Hide file tree
Showing 3 changed files with 55 additions and 29 deletions.
70 changes: 48 additions & 22 deletions _data/ph_authors.yml
Original file line number Diff line number Diff line change
Expand Up @@ -25,11 +25,11 @@
url: "http://adamcrymble.org"
team: true
team_start: 2011
institution: University College London, UK
institution: University College London, United Kingdom
sortname: Crymble
affiliation:
en: |
University College London, UK
University College London, United Kingdom
es: |
University College London, Reino Unido
fr: |
Expand Down Expand Up @@ -330,7 +330,7 @@
orcid: 0000-0002-2682-6922
affiliation:
en: |
University of Southampton, UK
University of Southampton, United Kingdom
es: |
University of Southampton, Reino Unido
fr: |
Expand Down Expand Up @@ -993,7 +993,7 @@
sortname: Sichani
affiliation:
en: |
School of Advanced Study, University of London, UK
School of Advanced Study, University of London, United Kingdom
es: |
School of Advanced Study, University of London, Reino Unido
fr: |
Expand Down Expand Up @@ -1142,13 +1142,13 @@
orcid: 0000-0002-4295-895X
affiliation:
en: |
The Pennsylvania State University, USA.
The Pennsylvania State University, United States
es: |
Universidad Estatal de Pensilvania, Estados Unidos.
Universidad Estatal de Pensilvania, Estados Unidos
fr: |
Université d'État de Pennsylvanie, États-Unis.
Université d'État de Pennsylvanie, États-Unis
pt: |
The Pennsylvania State University, Estados Unidos da América.
The Pennsylvania State University, Estados Unidos
bio:
en: |
Jennifer Isasi is an Assistant Research Professor of Digital Scholarship and Director of the Digital Liberal Arts Research Initiative at Penn State, and a PhD on Hispanic Studies.
Expand All @@ -1162,6 +1162,7 @@
- spanish
- technical
- managing
- proghist
status: institutionally-supported

- name: Jon MacKay
Expand Down Expand Up @@ -1256,8 +1257,9 @@
email: [email protected]
twitter: s_papastamkou
github: spapastamkou
team: true
team: false
team_start: 2018
team_end: 2024
institution: Luxembourg Centre for Contemporary and Digital History (C²DH)
sortname: Papastamkou
orcid: 0000-0002-5148-1348
Expand Down Expand Up @@ -1382,13 +1384,13 @@
sortname: LeBlanc
affiliation:
en: |
University of Illinois Urbana-Champaign, USA.
University of Illinois Urbana-Champaign, United States
es: |
University of Illinois Urbana-Champaign, Estados Unidos.
University of Illinois Urbana-Champaign, Estados Unidos
fr: |
University of Illinois Urbana-Champaign, Etats-Unis.
University of Illinois Urbana-Champaign, États-Unis
pt: |
University of Illinois Urbana-Champaign, Estados Unidos da América.
University of Illinois Urbana-Champaign, Estados Unidos
bio:
en: |
Zoe LeBlanc is a Postdoctoral Associate and Weld Fellow at the Center for Digital Humanities, Princeton University.
Expand Down Expand Up @@ -1435,13 +1437,13 @@
sortname: Quiroga
affiliation:
en: |
Catholic University of Chile, Chile.
Catholic University of Chile, Chile
es: |
Universidad Católica de Chile, Chile.
Universidad Católica de Chile, Chile
fr: |
Université Catholique de Chili, Chili.
Université Catholique de Chili, Chili
pt: |
Universidad Católica de Chile, Chile.
Universidad Católica de Chile, Chile
bio:
en: |
Riva Quiroga is a doctoral researcher in Linguistics at the Catholic University of Chile.
Expand All @@ -1454,7 +1456,7 @@
team_roles:
- editorial
- spanish
- proghist-deputy
- proghist
status: volunteer

- name: Joshua G. Ortiz Baco
Expand Down Expand Up @@ -2174,11 +2176,11 @@
url: "https://anisahawes.github.io/about/"
team: true
team_start: 2021
institution: Programming Historian, UK
institution: Programming Historian, United Kingdom
sortname: Hawes
affiliation:
en: |
Programming Historian, UK
Programming Historian, United Kingdom
es: |
Programming Historian, Reino Unido
fr: |
Expand Down Expand Up @@ -2975,11 +2977,11 @@
email: [email protected]
team: true
team_start: 2023
institution: Programming Historian, UK
institution: Programming Historian, United Kingdom
sortname: Chevrie
affiliation:
en: |
Programming Historian, UK
Programming Historian, United Kingdom
es: |
Programming Historian, Reino Unido
fr: |
Expand Down Expand Up @@ -3303,3 +3305,27 @@
- french
- editorial
status: volunteer

- name: Adam Farquhar
orcid: 0000-0001-5331-6592
github: adamfarquhar
email: [email protected]
url: "https://www.digital-lifecycle-management.com"
team: true
team_start: 2025
institution: Digital Lifecycle Management Limited
sortname: Farquhar
affiliation:
en: |
Digital Lifecycle Management Limited, United Kingdom
es: |
Digital Lifecycle Management Limited, Reino Unido
fr: |
Digital Lifecycle Management Limited, Royaume-Uni
pt: |
Digital Lifecycle Management Limited, Reino Unido
bio:
en: |
Adam Farquhar is CEO of Digital Lifecycle Management Limited, UK
team_roles:
- proghist
Binary file added avatars/adam-farquhar.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
14 changes: 7 additions & 7 deletions fr/lecons/gestion-manipulation-donnees-r.md
Original file line number Diff line number Diff line change
Expand Up @@ -24,7 +24,7 @@ review-ticket: https://github.com/programminghistorian/ph-submissions/issues/625
difficulty: 2
activity: transforming
topics: [data-manipulation, data-management, distant-reading, r, data-visualization]
abstract: Ce tutoriel guide les chercheurs et chercheuses dans l'organisation de leurs données pour les rendre « propres », et les aide à prendre en main les pacakages R qui leur permettront de conduire des analyses de base sur ces données.
abstract: Cette leçon guide les chercheurs et chercheuses dans l'organisation de leurs données pour les rendre « propres », et les aide à prendre en main les packages R qui leur permettront de conduire des analyses de base sur ces données.
avatar_alt: Pain de savon
doi: 10.46430/phfr0035
---
Expand All @@ -46,7 +46,7 @@ Cette leçon nécessite quelques prérequis sur votre compréhension de R. Si vo

## Introduction

Les données que vous rencontrerez « dans la nature » sont rarement présentées dans un format qui rend possible une analyse. Vous aurez donc à les traiter avant d'explorer les questions qui vous intéressent. Ce traitement peut prendre plus de temps que l'analyse elle-même ! Dans ce tutoriel, nous apprendrons quelques techniques de base pour manipuler, gérer et administrer nos données dans R. Nous nous fonderons notamment sur la philosophie des [« données propres »](https://perma.cc/C58C-4Y9A) (tidy data) telle que l'a présentée Hadley Wickham.
Les données que vous rencontrerez « dans la nature » sont rarement présentées dans un format qui rend possible une analyse. Vous aurez donc à les traiter avant d'explorer les questions qui vous intéressent. Ce traitement peut prendre plus de temps que l'analyse elle-même ! Dans cette leçon, nous apprendrons quelques techniques de base pour manipuler, gérer et administrer nos données dans R. Nous nous fonderons notamment sur la philosophie des [« données propres »](https://perma.cc/C58C-4Y9A) (tidy data) telle que l'a présentée Hadley Wickham.

Selon Wickham, la donnée est « propre » quand elle répond à ces trois critères :

Expand All @@ -64,7 +64,7 @@ Remplir ces critères nous permet de juger si la donnée est organisée ou pas.

Un avantage peut-être encore plus important est de garder nos données dans ce format propre, qui nous permet d'utiliser une galerie de paquets dans le [« tidyverse »](http://tidyverse.org/), spécifiquement conçus pour fonctionner avec des données bien structurées. En nous assurant que nos données en entrée et en sortie sont bien structurées, nous n'aurons qu'un nombre limité d'outils à utiliser pour répondre à un grand nombre de questions. De plus, nous pourrons combiner, manipuler et séparer des jeux de données comme bon nous semble.

Dans ce tutoriel, nous nous intéresserons particulièrement au paquet [dplyr](https://cran.r-project.org/web/packages/dplyr/index.html) du tidyverse. Mais cela vaut la peine de mentionner brièvement quelques autres paquets que nous utiliserons :
Dans cette leçon, nous nous intéresserons particulièrement au paquet [dplyr](https://cran.r-project.org/web/packages/dplyr/index.html) du tidyverse. Mais cela vaut la peine de mentionner brièvement quelques autres paquets que nous utiliserons :

- [magittr](https://perma.cc/J622-RDNF) : donne accès à l'opérateur pipe et rend le code plus facile à lire.

Expand All @@ -87,7 +87,7 @@ library(tidyverse)

## Un exemple du fonctionnement de dplyr

Utilisons un exemple pour voir comment dplyr peut aider les historien·nes, ainsi que les autres chercheur·euses en sciences humaines et sociales : importez les données de recensement décennal des États-Unis entre 1790 et 2010. Téléchargez les données depuis [le dépot de _Programming Historian_](/assets/data-wrangling-and-management-in-r/introductory_state_example.csv) et placez le fichier téléchargé dans le dossier que vous utiliserez pour traiter les exemples présentés dans ce tutoriel.
Utilisons un exemple pour voir comment dplyr peut aider les historien·nes, ainsi que les autres chercheur·euses en sciences humaines et sociales : importez les données de recensement décennal des États-Unis entre 1790 et 2010. Téléchargez les données depuis [le dépot de _Programming Historian_](/assets/data-wrangling-and-management-in-r/introductory_state_example.csv) et placez le fichier téléchargé dans le dossier que vous utiliserez pour traiter les exemples présentés dans cette leçon.

Comme les données sont stockées dans un fichier CSV, utilisez la commande `read_CSV()` incluse dans le paquet [readr](https://perma.cc/58PX-7LPB) du tidyverse.

Expand Down Expand Up @@ -213,7 +213,7 @@ install.packages("historydata", repos = "http://cran.us.r-project.org")
library(historydata)
```

Ce paquet contient un échantillon de données historiques sur les États-Unis. Les données de recensement que nous avons utilisées précédemment font partie de cet échantillon. Jusqu'à la fin de ce tutoriel, nous allons surtout travailler avec un jeu de données en particulier : `early_colleges`, qui contient des données sur les universités (« colleges » dans le monde anglophone) fondées avant 1848. Commençons par charger les données et les observer :
Ce paquet contient un échantillon de données historiques sur les États-Unis. Les données de recensement que nous avons utilisées précédemment font partie de cet échantillon. Jusqu'à la fin de cette leçon, nous allons surtout travailler avec un jeu de données en particulier : `early_colleges`, qui contient des données sur les universités (« colleges » dans le monde anglophone) fondées avant 1848. Commençons par charger les données et les observer :

```
# Vérifiez avant d'exécuter ce code que le paquet historydata a bien été installé et chargé
Expand All @@ -239,7 +239,7 @@ early_colleges

Comme vous pouvez le remarquer, ce jeu de données contient le nom actuel de chaque université, son nom à l'origine, la ville et l'État dans lequel il a été fondé, la date de sa fondation et l'organisation qui le parraine. Comme on l'a vu plus haut, avant de commencer à travailler sur ce jeu de données, il est important de penser à la façon dont on va organiser ces données. Voyons si certaines de nos données ne se trouveraient pas dans un format « impropre ». Voyez-vous des cellules qui ne répondraient pas aux trois critères que remplissent les données « propres » ?

Si vous avez répondu le parrainage de Harvard, vous avez la bonne réponse. En plus de mentionner le premier parrainage de cette université, la cellule comporte l'information de son changement de parrainage en 1805. Habituellement, on veut conserver dans nos données autant d'information que possible, mais pour rester dans la perspective de ce tutoriel, nous allons modifier la colonne pour ne conserver que les parrainages lors de la fondation.
Si vous avez répondu le parrainage de Harvard, vous avez la bonne réponse. En plus de mentionner le premier parrainage de cette université, la cellule comporte l'information de son changement de parrainage en 1805. Habituellement, on veut conserver dans nos données autant d'information que possible, mais pour rester dans la perspective de cette leçon, nous allons modifier la colonne pour ne conserver que les parrainages lors de la fondation.

```
early_colleges[1,6] <- "Congregational"
Expand Down Expand Up @@ -496,4 +496,4 @@ ggplot(secular_colleges_after_1812) +

## Conclusion

Ce tutoriel devrait vous mettre sur la bonne voie pour bien concevoir l'organisation et la manipulation de vos données avec R. Plus tard, vous souhaiterez sans doute progresser en visualisation de vos données. Je vous recommande de regarder le paquet [ggplot2](https://perma.cc/W7JT-UAEX) pour trouver des fonctions qui seront efficaces avec dplyr. De plus, vous pouvez être tenté d'examiner quelques autres fonctions accessibles dans dplyr pour améliorer vos compétences. Dans les deux cas, ce guide vous fournit une base pour approfondir vos connaissances et vous permet de couvrir les problèmes courants que vous pourriez rencontrer dans la gestion de données.
Cette leçon devrait vous mettre sur la bonne voie pour bien concevoir l'organisation et la manipulation de vos données avec R. Plus tard, vous souhaiterez sans doute progresser en visualisation de vos données. Je vous recommande de regarder le paquet [ggplot2](https://perma.cc/W7JT-UAEX) pour trouver des fonctions qui seront efficaces avec dplyr. De plus, vous pouvez être tenté d'examiner quelques autres fonctions accessibles dans dplyr pour améliorer vos compétences. Dans les deux cas, ce guide vous fournit une base pour approfondir vos connaissances et vous permet de couvrir les problèmes courants que vous pourriez rencontrer dans la gestion de données.

0 comments on commit f34a5ef

Please sign in to comment.