title

subtitle

author

job

framework

highlighter

hitheme

revealjs

widgets

mode

knit

Transparenz und Reproduzierbarkeit im Datenjournalismus

Timo Grossenbacher

Datenjournalist @srfdata

revealjs

highlight.js

default

theme	transition	center
default	linear	true

selfcontained

slidify::knit2slides

Journalismustag '15

Transparenz und
Reproduzierbarkeit im #DDJ

Warum und wie?

Timo Grossenbacher, SRF Data

@grssnbchr

@srfdata

Präsentation vefügbar unter grssnbchr.github.io/jt15-rddj

Über mich

Ursprünglich: Studium Geographie & Informatik

März - Oktober 2014: Tages-Anzeiger

Seit November 2014 beim Team von SRF Data als Programmierer und Datenjournalist

@grssnbchr

SRF Data

@srfdata

Portfolio

--- #slide-3-tweet

Warum Transparenz?

Vor ein paar Wochen hat sich eine Schweizer Politikerin bei uns über ein neues Tool beschwert. In diesem Fall war der Vorwurf der Pseudoobjektivität völlig unbegründet - einen wunden Punkt des Datenjournalismus trifft die Dame mit dem Vorwurf jedoch trotzdem.

Deswegen:

@brenntr @fljan @srfdata @srfnews sag ich doch, das mit dem Datenjournalismus ist eine heikle Sache und mündet zu oft in Pseudoobjektivität
— Jacqueline Badran (@JayBadran) June 22, 2015

Warum Transparenz?

Datenjournalistische Arbeit kann nur selten ausführlich erklärt werden - schon gar nicht in einem (Zeitungs-)Artikel. Während man bei klassischen Recherchen schnell mal erklären kann, dass man z.B. eine wichtige Info in einer Gerichtsakte gefunden hat, ist es beim DDJ schwieriger. Datenjournalisten wissen, dass die Resultate ihrer Arbeit nicht per se objektiver ist als die von anderen Journalisten. Sie sollten sich aber auch bewusst sein, dass beliebig komplexe Auswertungen Gefahr laufen, ihre Objektivität ganz zu verlieren. Nämlich dann, wenn unüberlegt und ungerechtfertigt Entscheidungen getroffen werden, die das Resultat einer Analyse stark verändern könn(t)en. Wenn man diese Schritte nicht transparent macht, dann besteht in der Tat die Gefahr der Pseudoobjektivität. Mit der Offenlegung unserer Methoden machen wir uns zwar angreifbar, aber wir können uns auch besser rechtfertigen. Im Idealfall weisen uns Leser konstruktiv auf Fehler hin, die wir beim nächsten Mal vermeiden können.

Zahlen und Visualisierungen von Zahlen haben eine inhärente, oft unhinterfragte "Wahrheit"

.fragment Jeder zusätzliche Prozessierungsschritt bedingt neue Entscheidungen
– Gefahr der "Pseudo-Objektivität" steigt

.fragment Das Problem: Datenjournalistische Arbeit kann nur selten ausführlich erklärt werden

.fragment Interessierte sollten die Chance erhalten, uns zu hinterfragen und uns zu korrigieren

Stufen der Transparenz

Transparenz kann man verschiedentlich auslegen, ich habe einmal versucht, eine Abstufung zu machen. Jede Stufe bedingt mehr oder weniger die vorhergehenden Stufen.

.fragment 1. Quellenangaben (leider nicht selbstverständlich...)

.fragment 2. Beschreibung und Rechtfertigung der Methoden, z.B. mit einem Werkstattbericht

.fragment 3. Offenlegung der Rohdaten und prozessierten Daten (z.B. wie bei fivethirtyeight.com)

.fragment 4. Offenlegung der Methoden, volle Reproduzierbarkeit (z.B. wie bei der NPR Military Gear Story)

Reproduzierbarkeit?

Ohne Reproduzierbarkeit keine echte, vollständige Transparenz. Richtige Reproduzierbarkeit bedingt, dass von den absoluten Rohdaten bis zum (analytischen) Endergebnis alle Schritte nachvollziehbar und ausführbar sind. Eigentlich ist dies nur zu erreichen, wenn man die Schritte "aufzeichnet", und dafür eignet sich am besten Code: Sprich, die Datenanalyse selber besteht aus einem Skript, dass einen Input nimmt und einen Output generiert. Das bringt zwei Vorteile mit sich: Man kann das Skript wiederverwenden, z.B. bei neuen Daten. Und das ganze ist automatisiert, sprich, wir können Kaffee trinken gehen, während der Computer rechnet. Die Automatisierung kann wiederum dabei helfen, Fehler zu vermeiden, die man beim manuellen Bearbeiten, z.B. bei Unkonzentriertheit, machen könnte.

.fragment ... von einem bestimmten Input immer zum gleichen Output gelangen

.fragment ... alles nachvollziehen können

.fragment ... darauf aufbauen können

.fragment Nebeneffekte:

.fragment 1. Transparenz

.fragment 2. Wiederverwendbarkeit / Automatisierung

.fragment 2b. Reduzierte Fehleranfälligkeit

Genug der Theorie!!!

Im folgenden nun ein Beispiel, wie wir bei SRF Data konkret versuchen, das zu leben, was ich hier predige.

Bildquelle: Flickr.com

Wie wir versuchen, transparent zu sein

Im selben Zug möchte ich zwei Tools bzw. Ideen präsentieren, wie man mit Technologie Transparenz schaffen kann.

(und effizient zu arbeiten...)

R / RMarkdown

GitHub

Transparenz & Open Data

SRF Data auf GitHub

Eidgenössische Wahlen 2015

Demo

Fazit

R ermöglicht uns:

alle Prozessierungsschritte an einem Ort zu bündeln
- einlesen
- vorprozessieren
- auswerten
- visualisieren
- vorbereiten / transformieren
- ...
- (Twitter / interaktive Grafiken & Karten / ...)
Beschreibung der Daten und Methoden mit Markdown
Publikation der Daten und Methoden auf GitHub / GitHubPages

Lust auf mehr?

rddj.info - damit bringt Ihr Euch R bei

grssnbchr/rddj-reproducibility-workflow

Gute Lektüre: Brian Keegan calls out 538 for openness in #ddj

Danke

Fragen?

@grssnbchr

@srfdata

Diese Präsentation ist verfügbar (und reproduzierbar) unter github.com/grssnbchr/jt15-rddj

Gebaut mit slidify und revealjs

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

index.md

index.md

Journalismustag '15

Transparenz und
Reproduzierbarkeit im #DDJ

Warum und wie?

Über mich

SRF Data

Warum Transparenz?

Warum Transparenz?

Stufen der Transparenz

Reproduzierbarkeit?

Genug der Theorie!!!

Wie wir versuchen, transparent zu sein

Transparenz & Open Data

Eidgenössische Wahlen 2015

Demo

Fazit

Lust auf mehr?

Danke

Fragen?

Files

index.md

Latest commit

History

index.md

File metadata and controls

Journalismustag '15

Transparenz und Reproduzierbarkeit im #DDJ

Warum und wie?

Über mich

SRF Data

Warum Transparenz?

Warum Transparenz?

Stufen der Transparenz

Reproduzierbarkeit?

Genug der Theorie!!!

Wie wir versuchen, transparent zu sein

Transparenz & Open Data

Eidgenössische Wahlen 2015

Demo

Fazit

Lust auf mehr?

Danke

Fragen?

Transparenz und
Reproduzierbarkeit im #DDJ