-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy pathindex.Rmd
executable file
·207 lines (132 loc) · 15.8 KB
/
index.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
---
title: "Science des données biologiques I"
author: "Philippe Grosjean & Guyliann Engels (avec des contributions de Raphaël Conotte)"
date: "`r Sys.Date()`"
site: bookdown::bookdown_site
output:
bookdown::gitbook:
info: yes
includes:
in_header: header.html
after_body: footer.html
documentclass: book
bibliography: [book.bib, packages.bib]
biblio-style: apalike
link-citations: yes
github-repo: 'BioDataScience-Course/sdd-umons-2022'
url: 'https\://wp.sciviews.org/sdd-umons/'
description: "Tutoriel interactif pour la science des données avec R & SciViews-R I."
cover-image: "images/front-cover.png"
---
# Préambule {.unnumbered}
```{r setup, include=FALSE}
knitr::write_bib(c(.packages(), 'bookdown', 'knitr', 'rmarkdown'), 'packages.bib')
```
`r learnitdown::clean_ex_toc()` `r learnitdown::diagnose_login(lang = "fr")`
Cet ouvrage est conçu pour être utilisé de manière interactive en ligne. En effet, vous y trouverez des vidéos, des démonstrations interactives ainsi que des exercices sous forme de questionnaires interactifs. **Ces différents éléments ne sont, bien évidemment, utilisables qu'en ligne.**
![](images/front-cover.png)
------------------------------------------------------------------------
*Le matériel dans cet ouvrage est distribué sous licence [CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/deed.fr).*
------------------------------------------------------------------------
<details>
<summary>Informations système</summary>
```{r, class.source='hidden-code'}
sessioninfo::session_info()
```
</details>
## Vue générale du cours {.unnumbered}
Cet ouvrage est le premier d'une série de trois volumes traitant de la science des données biologiques. L'écriture de cette suite de livres a débuté au cours de l'année académique 2018-2019. Pour l'année académique 2022-2023, ceci est le support du cours de [Science des données I : visualisation et inférence](http://applications.umons.ac.be/web/fr/pde/2022-2023/ue/US-B2-SCBIOL-006-M.htm) au second Bachelier en Biologie en Faculté des Sciences de l'Université de Mons, et dont le responsable est Philippe Grosjean.
La matière est divisée en 12 modules représentant chacun 6h de travail en présentiel. Chaque module nécessitera environ 8h (variable en fonction de votre rythme et de votre technique d'apprentissage) de travail à domicile. **Une séance de 2h est programmée en début d'année afin d'installer les logiciels (SciViews Box, R, RStudio), et de se familiariser avec eux.**
Les six premiers modules vous font découvrir les logiciels nécessaires pour effectuer les exercices de ce cours : R, RStudio, git. Ils sont également consacrés à l'importation, le remaniement et la **visualisation** de données biologiques.
Les six modules suivants s'attaquent à l'**inférence** statistique, c'est-à-dire, l'art de tirer des conclusions sur l'observation d'un phénomène biologique en présence d'incertitude, de variation entre individus et d'erreur de mesure qui sont impossible à éviter en biologie. Il s'agit ici d'utiliser de manière correcte les tests d'hypothèses statistiques et de réaliser des analyses de données reproductibles.
## Matériel pédagogique {.unnumbered}
Le matériel pédagogique est aussi varié que possible. Vous pourrez ainsi piocher dans l'offre en fonction de vos envies et de votre profil d'apprenant pour optimiser votre travail. Vous trouverez :
- le présent ouvrage en ligne,
- des [exercices H5P](http://www.h5p.org) repérables par le logo [![h5p](images/list-h5p.png)](https://wp.sciviews.org/h5p/){target="_parent"} sur lequel vous pouvez cliquer pour avoir plus d'informations sur leur utilisation,
- des [applications Shiny](https://shiny.rstudio.com/) qui sont de véritables petits programmes avec interface Web écrits en R. Ils vous démontrent "en live" certains concepts. Ces applications doivent être lancées en cliquant sur l'image contenant le logo [![app](images/list-app.png)](https://wp.sciviews.org/shiny_app/){target="_parent"} et elles doivent être quittées avec le bouton `Quit` ou `Quit & Save` si l'enregistrement est activé. N'oubliez pas de soumettre votre réponse avec le bouton `Submit`. Si le serveur distant est trop lent ou indisponible, il est aussi possible de lancer ces applications Shiny directement dans RStudio (voir le message en italique qui apparaît en dessous de l'application),
- des [tutoriels interactifs learnr](https://rstudio.github.io/learnr/). Vous pourrez exécuter ces tutoriels directement sur votre ordinateur dans RStudio, et vous aurez alors accès à des pages Web réactives contenant des explications, des exercices et des quiz en ligne directement dans votre environnement de travail habituel. Ces tutoriels sont repérables via l'icône suivante [![tuto](images/list-tuto.png)](https://wp.sciviews.org/tutorial/){target="_parent"},
- des [dépôts GitHub Classroom](https://classroom.github.com/) dans la section [BioDataScience-Course](https://www.github.com/BioDataScience-Course) pour réaliser et documenter vos travaux personnels. Les liens vers ces dépôts sont repérables par l'icône GitHub [![assign](images/list-assign.png)](https://wp.sciviews.org/github_assignment/){target="_parent"},
- des renvois vers des documents externes en ligne, des vidéos [Youtube](https://www.youtube.com/) ou [Vimeo](https://vimeo.com/), des livres en anglais ou en français, des blogs, des tutoriels, des questions sur des sites comme [Stackoverflow](https://stackoverflow.com/) ou issues des [mailing lists R](https://www.r-project.org/mail.html), de [Twitter](https://twitter.com/), ...
- des diapositives de présentations distribuées via le dépôt [sdd_lessons sur BioDataScience-Course](https://github.com/BioDataScience-Course/sdd_lessons/tree/2022-2023).
```{block, type='info'}
::: nocourse
Tout ce matériel est accessible à partir du [site Web du cours](https://wp.sciviews.org){target="top"}, et du présent syllabus interactif.
:::
::: {.S-BIOG-006 .S-BIOG-027 .S-BIOG-921}
Tout ce matériel est accessible à partir du [site Web du cours](https://wp.sciviews.org){target="top"}, du présent syllabus interactif et de Moodle pour les étudiants de l'UMONS.
Les travaux personnels seront à réaliser en utilisant une machine virtuelle préconfigurée, la **'SciViews Box'**, que nous installerons ensemble à la fin du premier module avec les étudiants possédant un ordinateur adapté.
Vous pourrez poser vos questions par mail à l'adresse [sdd\@sciviews.org](mailto:[email protected]) ou dans les issues du dépôt Github de ce cours. L'accès à se dépôt vous sera donné lors du premier module du cours.
Un **outil d'annotation** et de surlignage est intégré dans le cours en ligne. Il vous permet :
- de personnaliser votre cours en écrivant dedans comme vous le feriez avec un syllabus papier (annotations privées... tout ce qui vous passe par la tête).
- d'échanger des informations complémentaires entre vous (par exemple, trucs et astuces supplémentaires, liens utiles, etc.) ou avec vos enseignants (passages moins clairs ou lacunes éventuelles). Soyez constructif dans vos commentaires publiques et réservez vos questions pour Discord. Nous tiendrons compte de vos remarques pour améliorer le cours pour les années suivantes.
Pour annoter ou surligner, vous sélectionnez du texte et vous cliquez sur l'un des deux boutons `Annotate` ou `Highlight` qui apparaissent. Vous devez vous créer un compte (gratuit) sur [hypothes.is](https://hypothes.is) auparavant. Vos annotations publiques sont à poster dans le groupe **BioDataScience-Course**. Vous devez [vous y abonner en cliquant sur ce lien](https://hypothes.is/groups/miAKPpWy/biodatascience-course) et ensuite sélectionner ce groupe dans la barre d'outil en haut du panneau d'annotation **avant d'ajouter vos commentaires, qu'ils soient personnels ou de groupe**.
:::
```
## Comment apprendre ? {.unnumbered}
```{r}
fortunes::fortune("brain surgery")
```
Version courte : **en pratiquant et en faisant des erreurs !**
Version longue : aujourd'hui --et encore plus à l'avenir-- les données sont complexes et ne se manipulent plus simplement avec un tableur comme [Microsoft Excel](https://www.microsoft.com/fr-be/microsoft-365/excel). Vous apprendrez donc à maîtriser des outils professionnels très puissants, mais aussi relativement complexes. La méthode d'apprentissage que nous vous proposons a pour objectif prioritaire de vous faciliter la tâche, quelles que soient vos aptitudes au départ. Envisagez votre voyage en science des données comme l'apprentissage d'une nouvelle langue. **C'est en pratiquant, et en pratiquant encore sur le long terme que vous allez progresser.** Pour vous aider dans cet apprentissage progressif et sur la durée, la formation s'étale sur quatre années, et est répartie en cinq cours de difficulté croissante.
N'hésitez pas à expérimenter, tester ou essayer de nouvelles idées (même au-delà de ce qui vous sera demandé dans les exercices) et surtout, **n'ayez pas peur de faire des erreurs**. Vous en ferez ... beaucoup ... *nous vous le souhaitons !* La meilleure manière d'apprendre, c'est en faisant des erreurs et en mettant ensuite tout en œuvre pour les comprendre et les corriger. Donc, si un message d'erreur apparaît, ne soyez pas intimidé. Prenez une bonne respiration, lisez-le attentivement, essayez de le comprendre, et au besoin faites-vous aider : la solution est sur Internet, 'Google[^index-1] est votre ami' ! L'idée ici n'est pas tellement éloignée de ce qui est présenté dans la vidéo suivante :
[^index-1]: Il existe tout de même des outils plus pointus pour obtenir de l'aide sur le logiciel R comme [rseek.org](https://rseek.org), [rdocumentation.org](https://www.rdocumentation.org) ou [rdrr.io](https://rdrr.io). Rien ne sert de chercher 'R' dans Google.
```{r, echo=FALSE}
vembedr::embed_youtube("9vJRopau0g0", width = 770, height = 433)
```
## Approche pédagogique {.unnumbered}
Ce livre en ligne ainsi que tout le matériel pédagogique cité plus haut ont été développés pour être employés en pédagogie active en classe inversée. On peut résumer cette approche en deux phases. Vous apprenez d'abord à la maison, nous appliquons *ensuite* en présentiel.
### Classe inversée & pédagogie active {.unnumbered}
Jusqu'à présent, la plus grande partie de vos cours vous ont été donnés de manière classique. Vous avez donc suivi **passivement** un cours *ex cathedra* suivi par une séance d'exercice ou de travaux pratiques.
On peut schématiser ce mode d'apprentissage comme cela
![](images/sdd1_00/organisation1.png)
À la fin, un examen est indispensable pour valider l'acquisition des concepts.
Le cours de science des données I utilise une autre approche et se donne en classe inversée. Le schéma ci-dessous vous propose l'organisation d'un module du cours. Vous devrez donc préparer en distanciel chaque session de cours en présentiel. Lors de chaque heure de travail lié à ce cours, vous serez donc **actif**.
![](images/sdd1_00/organisation2.png)
Une présentation de l'approche pédagogique du cours vous est faite en première séance. La présentation est disponible au format PDF [ici](https://github.com/BioDataScience-Course/sdd_lessons/raw/2022-2023/A00/presentations/A00Pa_intro.pdf).
### Quatre niveaux d'exercices {.unnumbered}
Quatre niveaux d'exercices de difficultés croissantes vous seront proposés.
- niveau I : découverte des notions dans des exercices rapides et ciblés intégrés au sein du cours en ligne.
- niveau II : appliquer les notions vues dans des exercices sous la forme de tutoriel très cadré
- niveau III : transférer les notions dans des projets individuels guidés sur des données biologiques
- niveau IV : Créer/réaliser des analyses sur des projets de groupe libre sur des données biologiques nouvelles grâce aux notions vues
Chaque type d'exercice est associé à un outil présenté dans le matériel pédagogique.
![](images/sdd1_00/apprendre2.png)
L'ensemble de vos réponses sont collectées et utilisées afin de construire la note finale. Il n'est donc plus nécessaire de passer un examen classique en session d'examen. Tous ces exercices prouvent que vous avez acquis ou non les acquis d'apprentissage de ce cours.
Votre progression au sein des exercices de chaque module est mise à votre disposition à la fin de chaque module ou bien depuis Moodle.
```{block, type='warning'}
Les notes des exercices plus faciles de niveau 1 et 2 sont comptabilisés séparément des exercices plus difficiles. Il faut obtenir au moins 50% des points dans les exercices de niveau 3 et 4 pour bénéficier également de la note des exercices faciles de niveau 1 et 2. **Votre objectif est donc de bien vous préparer et de réussir vos projets, challenges et interrogations en présentiel.** Les exercices faciles vous aident à bien vous préparer. **Faites les sérieusement, c'est dans votre intérêt.**
L'évaluation est **continue** tout au long de l'année. Il n'y a pas d'examen en fin d'année et il n'y a pas moyen non plus de repasser un examen en seconde session. La présence aux séances est **obligatoire** pour cette raison et toute absence in,justifiée vous coutera un zéro pour la matière concernée.
```
### Plan du cours {.unnumbered}
Le plan du cours est une forme de contrat entre les étudiants et les encadrants. Ce document structure les attentes de vos encadrants. Veuillez consulter ce document attentivement.
- [Plan du cours de Science des données biologiques I : années 2022-2023](https://github.com/BioDataScience-Course/BioDataScience-Common/tree/2022-2023/docs/plan_de_cours/sdd1_plan_cours_2022-2023.md)
##### À vous de jouer ! {.unnumbered}
*Note : lorsque vous voyez le petit logo "H5P" comme ci-dessous, cela signifie que vous avez maintenant un exercice interactif. Cet exercice peut prendre différentes formes (quiz, présentation ou vidéo contenant des questions, vrai ou faux, cliquer sur une image ...).*
`r h5p(133, height = 270, toc = "Charge de travail")`
## Issues {#issues .unnumbered}
Toutes les questions relatives aux exercices sont à poser dans les issues GitHub dédiées à ce cours. Lors de la première lecture de ce préambule, vous ne connaissez pas encore les "issues". Nous allons découvrir ce que cache ce terme lors du premier module du cours. Vous rejoindrez cet espace de discussion par la suite.
```{r assign_A00Ga_issues, echo=FALSE, results='asis'}
if (exists("assignment2"))
assignment2("A00Ga_issues", part = NULL, clone = FALSE,
url = "https://github.com/BioDataScience-Course/sdd_issues",
course.ids = c(
'S-BIOG-006' = !"A00Ga_{YY}M_issues",
'S-BIOG-921' = !"A00Ga_{YY}C_issues"),
course.urls = c(
'S-BIOG-006' = "https://classroom.github.com/a/4xQ25Ghf",
'S-BIOG-921' = "https://classroom.github.com/a/..."),
course.ends = c(
'S-BIOG-006' = !"{W[53]+5} 23:59:59",
'S-BIOG-921' = !"{W[53]+6} 23:59:59"),
term = "", level = 0,
toc = "Poser ses questions dans une issue.", n = 100,
texts = learnitdown::assignment2_fr(
title = "Rejoignez le projet",
course = "[Projet GitHub Classroom d\u00e9di\u00e9e aux issues pour les \u00e9tudiants inscrits au cours de {course_name}]({course_url}){{target=\"_blank\"}}",
alt = "Les issues ne sont pas accessibles aux \u00e9tudiants externes."))
```
*Note : vos enseignants sont également accessibles par mail via [sdd\@sciviews.org](mailto:[email protected]){.email}.*
Une fois que vous avez rejoint l'équipe **`r !"A{YY}"`**, il n'est plus nécessaire d'utiliser le lien GitHub Classroom vers ces issues. Vous pouvez retrouver directement les issues liées à ce dépôt via la bannière du site.
![](images/sdd1_00/issues.png)
*Pour terminer, encore un petit exercice rapide pour vérifier si vous avez lu suffisamment attentivement le contenu ci-dessus...*
`r h5p(134, height = 270, toc = "Adresse mail pour l'aide sur le cours")`