-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathspace2018.Rmd
140 lines (111 loc) · 3.65 KB
/
space2018.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
---
title: '#Space2018 — revue de tweets'
author: "Colin Fay"
date: "25/09/2018"
output:
html_document:
df_print: kable
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = FALSE)
library(tidyverse)
df <- read_csv("space2018.csv")
df <- df %>%
mutate(time = lubridate::dmy_hms(time),
jour = as.Date(time)) %>%
filter(jour > "2018-09-08", jour < "2018-09-17") %>%
mutate(entities_str = map(entities_str, jsonlite::fromJSON))
source("data-bzh-tools-master/main.R")
```
## Tour d'horizon en dataviz de l'activité Twitter pendant le Space 2018
<--more--!>
### Space 2018
Le Space 2018, salon international de l'élevage, s'est tenu à Rennes du 11 au 14 septembre 2018. Aperçu en data de l'activité Twitter autour de l'événement.
### À propos des données
Les données ont été collectées via l'outil [TAGs](https://tags.hawksey.info/get-tags/). Nous les avons filtrées sur une période allant de deux jours avant à deux jours après la conférence (soit du 9 au 16 septembre). Soit un total de 5700 Tweets, répartis sur 8 jours.
### Répartition temporelle
Voici le nombre de tweets par jour, sur la période :
```{r}
count(df, jour)
```
On constate, sans grosse surprise, un gros pic pendant le salon, avec une forte présence sociale le 11, puis une baisse le 12, 13 et 14.
Comment se répartissent les tweets dans la journée, pendant le salon ?
```{r eval = FALSE}
df %>%
filter(jour >"2018-09-10", jour < "2018-09-15 ") %>%
mutate(time = lubridate::hour(time)) %>%
ggplot(aes(time)) +
geom_bar(fill = databzh$colour1) +
facet_grid(jour ~ .) +
labs(
title = "Tweets par heure",
x = "heure",
y = "volume",
subtitle = "Données via Twitter",
caption = "http://data-bzh.fr"
) +
databzhTheme()
````
### Les twittos
#### Qui sont les twittos les plus actifs ?
```{r eval = FALSE}
df %>%
count(from_user, sort = TRUE) %>%
top_n(10) %>%
ggplot(aes(reorder(from_user, n), n)) +
geom_col(fill = databzh$colour2) +
coord_flip() +
labs(
title = "Nombre de tweets sur la période",
x = "Compte",
y = "volume",
subtitle = "Données via Twitter",
caption = "http://data-bzh.fr"
) +
databzhTheme()
```
Ici, en tête de gondole, trois comptes liés de près à l'événement : la Chambres d'agriculture de Bretagne, le département Physiologie Animale et Systèmes d'élevage, et le compte officiel du Space.
#### Qui sont les plus "influents" (avec le plus de followers ? )
```{r}
df %>%
group_by(from_user) %>%
summarise(followers = round(mean(user_followers_count)), nombre_de_tweets = n()) %>%
top_n(10, followers) %>%
arrange(desc(followers))
```
#### Les plus cités ?
Qui sont les 10 comptes les plus cités de notre corpus ?
```{r}
df %>%
mutate(quotes = map(entities_str, 1),
quotes = map(entities_str, "user_mentions")) %>%
pull(quotes) %>%
bind_rows() %>%
count(name, sort = TRUE) %>%
top_n(10)
```
Nous voyons que le compte du Space est celui qui a été le plus cité (et de loin).
### Hashtags
Les hashtags les plus présents sont les suivants (en excluant "space2018"):
```{r eval = FALSE}
df %>%
mutate(quotes = map(entities_str, 1),
quotes = map(entities_str, "hashtags")) %>%
pull(quotes) %>%
bind_rows() %>%
mutate(text = tolower(text)) %>%
filter(text != "space2018") %>%
count(text, sort = TRUE) %>%
top_n(10) %>%
ggplot(aes(reorder(text, n), n)) +
geom_col(fill = databzh$colour3) +
coord_flip() +
labs(
title = "Hashtags les plus présents",
x = "hashtags",
y = "volume",
subtitle = "Données via Twitter",
caption = "http://data-bzh.fr"
) +
databzhTheme()
```