A template for the documentation of a course
This template is based on our dataviz crash course.
- Im
_config.yml
die Werte anpassen (insbesonderetitle
unddescription
) - Kurs-Inhalt in README.me erfassen, Überschrift 1 und 2 (in Markdown mit
#
und##
markiert) wird als Navigation auf der Seite zur Verfügung gestellt (auf Geräte mit kleinem Bildschirm ist das ausgeblendet). HINWEIS: Die erste Überschrift ist absichtlich nicht in der Navigation, das ist für den Haupttitel des Kurses (dies kann in der Dateiassets/js/main.js
angepasst werden, falls nötig). - In den Settings "GitHub Pages" aktivieren (mit Branch
main
undroot
):
Tipp für Bilder und Videos: am einfachstes ist es die Bilder und Videos direkt in das Eingabefeld eines neuen GitHub Issues einzufügen, dadurch wird das Bild/Video direkt auf GitHub hochgeladen und die URL kann ins README kopiert werden.
upload_to_github.mp4
Zur Beantwortung der Fragestellung benötigen wir die dazu relevanten Daten. Wir müssen uns zuerst auf die Suche machen:
- Schritt 1: Rufe den Open Data Katalog der Stadt Zürich auf unter: https://data.stadt-zuerich.ch/
- Schritt 2: Suche nach Hundebestand pro Stadtquartier und Jahr. Gebe dazu im Suchfeld beispielsweise den Begriff «Hunde» und «Stadtquartier» ein. Beim Eintippen des Suchbegriffs werden bereits passende Vorschläge zu auf dem Katalog vorkommenden Daten angezeigt.
01_hundebestand_download.mp4
-
Schritt 4: Suche nach einem Datensatz, der die Anzahl Kleinkinder pro Stadtquartier und Jahr beinhaltet. Da für die Definition eines Kleinkindes das Alter relevant ist, suchen wir also einen Datensatz, welcher das Alter der Bevölkerung nach Stadtquartier und Jahr beinhaltet. Gib daher im Suchfeld beispielsweise die Begriffe «Alter» und «Stadtquartier» ein. Als Suchresultat erscheinen nun aber 35 Datensätze. Wir sollte daher noch einen besseren Begriff wählen. Verwende daher die Begriffe «Altersjahr» und «Stadtquartier», dadurch sind es nur noch 8 Resultate.
-
Schritt 5: Für unsere Fragestellung ist der Datensatz «Bevölkerung nach Stadtquartier, Herkunft, Geschlecht und Alter, seit 1993» am geeignetsten. Er beinhaltet zwar mehr Informationen als wir benötigen (die Herkunft oder das Geschlecht interessieren uns eigentlich weniger), aber wir werden sie in einem späteren Schritt mit Excel herausfiltern.
-
Schritt 6: Lies nun auch wieder die Metadaten zum Datensatz und gehe gleich wie in Schritt 3 vor, um den Datensatz auf Deinen Computer herunter zu laden.
-
Schritt 7: Du hast nun die beiden für unsere Fragestellung relevanten Datensätze gefunden und heruntergeladen. Sie heissen
20200306_hundehalter.csv
(Hunde) undBEV390OD3903.csv
(Bevölkerungsdaten). Kopiere diese beiden Datensätze nun aus dem Downloadverzeichnis Deines Computers und lege sie in ein Verzeichnis, wo Du an den noch folgenden Schritten weiter arbeiten kannst.
Damit ist unser erster Teil zum Thema «Daten finden» beendet. Solltest Du später einmal für eine andere Fragestellung auf dem Open Data Katalog der Stadt Zürich nicht fündig werden, können auch viele andere Open Data Quellen konsultiert werden. Auf nationaler Ebene werden unter opendata.swiss sämtliche offenen Verwaltungsdaten von verschiedenen Bundesstellen, anderen Kantonen und Städten angeboten.
Eines der Grundprinzipien von Open Data ist, dass die Datensätze in nicht-proprietären Formaten veröffentlicht werden sollen. Sprich, für die Verwendung der Daten sollen die AnwenderInnen nicht auf kommerzielle Software angewiesen sein. Damit soll allen die gleiche Möglichkeit gegeben werden, mit den Daten arbeiten zu können. Das Excelformat (.xls oder .xlsx) ist ein Beispiel eines proprietären Datenformats, weil es zur Verwendung Excel erfordert.
Das Standardformat für tabellarische Daten ist daher CSV. CSV steht für Comma-separated values (komma-getrennte Werte).
CSV-Beispiel:
CSV-Dateien haben meistens auf der ersten Zeile eine Spaltenüberschrift und auf den nachfolgenden Zeilen dann die kommaseparierten Werte.
"zeitpunkt","bruttolastgang","status" "2020-01-01T00:15",66546.656045,"E" "2020-01-01T00:30",66018.362440,"E" "2020-01-01T00:45",65272.630020,"E" "2020-01-01T01:00",64385.925397,"E" "2020-01-01T01:15",63578.900426,"E" "2020-01-01T01:30",63105.155989,"E" "2020-01-01T01:45",62287.860786,"E" "2020-01-01T02:00",61283.998490,"E"
Werte zwischen Anführungszeichen sind entweder Texte oder Datumswerte. Wo keine Anführungszeichen stehen, handelt es sich um numerische Werte. Die Kodierung für Unicode-Zeichen ist dabei standardmässig UTF-8. Der angezeigte CSV-Auszug oben repräsentiert die folgende Tabelle:
Vielleicht fragst Du Dich unterdessen, wozu der ganze Exkurs über CSV dienlich sein soll...(?) Leider ist es so, dass viele Datennutzende bereits zu diesem Zeitpunkt scheitern, wenn sie noch nie mit CSV gearbeitet haben und eine CSV-Datei in Excel öffnen wollen. Daher zeigen wir Euch in diesem Abschnitt, wie man vorgehen sollte, wenn man mit CSV-Datensätzen in Excel arbeiten möchte.
Wie es NICHT funktioniert: Ein Doppelklicken auf eine CSV-Datei - wie in unten gezeigter Animation gezeigt - funktioniert leider in den meisten Fällen nicht. Obwohl man gemäss des im Beispiel angezeigten Icons der Datei das Gefühl hätte, dass dies so möglich sein sollte. Folgendes geschieht jedoch stattdessen:
02_ExcelIssue.mp4
Die CSV-Datei wird zwar in Excel geöffnet, es findet dabei jedoch keine Trennung der einzelnen Attribute in Spalten statt (vgl. mit der oben gezeigten Tabelle). Mit der hier gezeigten Vorgehensweise sind alle Werte in eine Spalte (hier Spalte A) eingefügt worden. Damit lässt sich nicht bequem weiterarbeiten.
Excel ist bezüglich Datenanalyse selbstverständlich nicht allererste Sahne. Fortgeschrittenere Datennutzende verwenden in der Regel eher Statistiktools wie R (siehe dazu Ressourcen, wie Rddj oder RStudio Education) oder Python (siehe dazu Ressourcen, wie Data analysis with Python oder Information Visualization).
Beginnen wir zuerst einmal damit herauszufinden, wie viele Kleinkinder es pro Stadtquartier am 31.12.2019 gab.
-
Schritt 1: Gehe zum Menu Einfügen, klicke aufs PivotChart-Icon und wähle PivotChart und PivotTable.
-
Schritt 2: Mit dem Pop-Up PivotTable erstellen wirst Du aufgefordert, den Tabellenbereich der analysiert werden soll auszuwählen. Sofern Du alle Daten des aktiven Arbeitsblattes betrachten möchtest, musst Du hier nichts anpassen. Als weitere Option kannst Du auswählen, ob die PivotTable in ein bestimmtes oder in ein neues Arbeitsblatt eingefügt werden soll. Klicke danach auf OK.
-
Schritt 3: Im neuen Arbeitsblatt erscheinen nun die noch leeren PivotTable- und PivotChart-Flächen. Auf der rechten Seite siehst Du die PivotTable-Felder, welche Du interaktiv per drag & drop in vier Bereiche ziehen kannst.
- a) WERTE: hier werden die zu aggregierenden Wertefelder definiert. In unserem Fall ist das die Anzahl Personen aus der wirtschaftlichen Wohnbevölkerung (
AnzBestWir
) . - b) ZEILEN: hier werden die Felder eingefügt, welche als Zeilen dargestellt werden sollen. In unserem Fall also die Stadtquartiere (
QuartLang
). Die Stadtquartiere können mit ihren Namen oder mit ihren offiziellen IDs (QuartSort
oderQuartCd
) angezeigt werden. - c) SPALTEN: hier könnten weitere Ausprägungen ausgewählt werden, wie z.B. das Geschlecht oder die Herkunft. Für unsere Fragestellung sind diese Felder jedoch nicht relevant. Deshalb bleibt dieser Bereich leer.
- d) FILTER: hier können für Attribute gewisse Werte aus den Daten gefiltert werden. So müssen wir nun das für uns relevante Jahr (
StichtagDatJahr
), also 2019, auswählen. Ausserdem betrachten wir ja lediglich die Kleinkinder. Wir definieren sie hier als jene Personen in der Alterskategorie (AlterV05Kurz
) 0-4. Also der Kinder die jünger als 5 Jahre alt sind. Man könnte die Definition selbstverständlich auch anders festlegen.
05_BevBest_Pivot.mp4
- a) WERTE: hier werden die zu aggregierenden Wertefelder definiert. In unserem Fall ist das die Anzahl Personen aus der wirtschaftlichen Wohnbevölkerung (
-
Schritt 4: Damit haben wir nun bereits die erforderliche Tabelle und eine simple Grafik der Anzahl Kleinkinder pro Stadtquartier Ende 2019. Benenne das Arbeitsblatt wieder, z.B. mit
BevBest_Pivot
.
Damit wir die Resultate der Anzahl Hunde und Anzahl Kleinkinder pro Stadtquartier vergleichen können, kopieren wir am einfachsten die Resultate der Pivot-Tabellen in ein neues Arbeitsblatt.
-
Schritt 1: Füge ein neues Arbeitsblatt (mit Klick auf das Plus-Zeichen unten rechts neben den anderen Arbeitsblättern) hinzu. Gib ihm einen Namen. In unserem Beispiel
Vgl_Kleinkinder_Hunde
. -
Schritt 2: Kopiere die Werte der Anzahl Kleinkinder pro Stadtquartier und füge sie ins neue Arbeitsblatt ein.
-
Schritt 3: Mache das gleiche mit den Werten zur Anzahl Hunde pro Stadtquartier und füge sie mit etwas Abstand rechts ins neue Arbeitsblatt ein.
07_Resultate_zusammenbringen.mp4
Die CSV-Datei, auf der dieser Kurs basiert, kann von GitHub heruntergeladen werden: ZIP-Datei mit den verlinkten CSVs.
Datawrapper hat eine Reihe von Tutorials und Schulungsunterlagen, die die einzelnen Diagramm- und Karten-Typen erklären und wie damit Visualisierungen erstellt werden können.
Beispiele: