Summarize Variables
Am Anfang einer sozialwissenschaftlichen Datenanalyse stehen oft deskriptive Statistiken zur Beschreibung von Variablen. Im Gegensatz zu den zuvor (z.B. bei der z-Standardisierung) verwendeten vektorisierten Funktionen kommen dabei »summary functions« zum Zuge:

Diese Funktionen werden oft innerhalb der Funktion summary() ausgeführt, welche eine sehr ähnliche Syntax wie mutate() aufweist (siehe Cheatsheet unten).
Mittelwert und Standardabweichungen der bill-Variablen
Angenommen ein Forscher:innenteam möchte Mittelwert und Standardabweichungen der bill-Variablen berichten - was wäre eine geignete Syntax?
- 1
-
Nimm das Objekt/den Datensatz
penguinsund - 2
- berechne folgende Zusammenfassungen von Variablen:
- 3
-
Das arithmtische Mittel der Variable
bill_length_mm. - 4
-
Das arithmtische Mittel der Variable
bill_depth_mm. - 5
-
Die Standardabweichung der Variable
bill_length_mm. - 6
-
Die Standardabweichung der Variable
bill_depth_mm.
Übung 1
Führen Sie die den obigen Code aus. Ergänzen Sie dann um Median, Minimum und Maximum.
Sowohl in median() als auch in min() und max() ignoriert man fehlende Werte NA mit dem Funktionsargument na.rm = TRUE.
penguins %>%
summarize(
bill_length_mean = mean(bill_length_mm, na.rm = T),
bill_depth_mean = mean(bill_depth_mm, na.rm = T),
bill_length_sd = sd(bill_length_mm, na.rm = T) ,
bill_depth_median = median(bill_depth_mm, na.rm = T),
bill_depth_max = max(bill_depth_mm, na.rm = T),
bill_depth_min = min(bill_depth_mm, na.rm = T)) 
