Deskriptive Statistiken in der Programmiersprache R berechnen
Statistics
R
Autor:in
Jan Kirenz
Veröffentlichungsdatum
1. August 2019
Geändert
26. Dezember 2023
Deskriptive Statistik in R
In diesem Beitrag wird die Berechnung einfacher deskriptiver Statistiken und die Visualisierung von Verteilungen in R am Beispiel des Datensatzes “Advertising” behandelt.
Datenimport
Datensatz: Advertising.csv
Variablen: TV, radio, newspaper = jeweils Werbeausgaben in Dollar; sales = Produkte in Tausend Einheiten
Zunächts möchten wir uns einen Überblick über die Daten verschaffen. Dafür importieren wir die Daten und prüfen, ob die Skalenniveaus korrekt sind. Für die weiteren Berechnungen wird die Variable X1 nicht benötigt, weshalb wir diese löschen.
library(tidyverse)# Daten importierenAdvertising <-read_csv("https://raw.githubusercontent.com/kirenz/datasets/master/advertising.csv")# Überblick über die Daten verschaffen (Skalenniveaus prüfen)head(Advertising)
vars n mean sd median trimmed mad min max range skew
Market 1 200 100.50 57.88 100.50 100.50 74.13 1.0 200.0 199.0 0.00
TV 2 200 147.04 85.85 149.75 147.20 108.82 0.7 296.4 295.7 -0.07
radio 3 200 23.26 14.85 22.90 23.00 19.79 0.0 49.6 49.6 0.09
newspaper 4 200 30.55 21.78 25.75 28.41 23.13 0.3 114.0 113.7 0.88
sales 5 200 14.02 5.22 12.90 13.78 4.82 1.6 27.0 25.4 0.40
kurtosis se
Market -1.22 4.09
TV -1.24 6.07
radio -1.28 1.05
newspaper 0.57 1.54
sales -0.45 0.37
Hinweise zu den Kennzahlen:
vars: Nummer der Variable
n: Anzahl der Beobachtungen
mean: arithmetischer Mittelwert
sd: empirische Standardabweichung
median: Median
trimmed: getrimmter Mittelwert
mad: Mittlere absolute Abweichung vom Median
min: kleinster Beobachtungswert
max: größter Beobachtungswert
range: Spannweite
skew: Schiefe
kurtosis: Wölbung
se = Standardfehler
Mittelwert
Bei der Berechnung des arithmetischen Mittelwerts in R sollte immer die Anweisung gegeben werden, fehlende Werte auszuschließen (na.rm = “remove values which are not available”). Ansonsten stoppt R bei fehlenden Werten die Berechnung und gibt eine Fehlermeldung aus.
mean_sales <-mean(Advertising$sales, na.rm =TRUE)print(paste0("Mittelwert der Variable Sales: ", mean_sales))
[1] "Mittelwert der Variable Sales: 14.0225"
Standardabweichung
Die Standardabweichung ist ein häufig verwendetes Streuungsmaß und beschreibt die mittlere Abweichung der einzelnen Messwerte vom empirischen Mittelwert. Die Standardabweichung ist die positive Wurzel der empirischen Varianz. Die Varianz einer Stichprobe wird wie folgt berechnet: \[s^{2} = \frac{\sum_{i=1}^{n} \left(x_{i} - \bar{x}\right)^{2}} {n-1}\]
Berechnung der Standardabweichung: \[s = \sqrt{\frac{\sum\limits_{i=1}^{n} \left(x_{i} - \bar{x}\right)^{2}} {n-1}}\]
var_sales <-var(Advertising$sales, na.rm =TRUE)print(paste0("Varianz der Variable Sales: ", round(var_sales, 2)))
[1] "Varianz der Variable Sales: 27.22"
sd_sales <-sd(Advertising$sales, na.rm =TRUE)print(paste0("Standardabweichung der Variable Sales: ", round(sd_sales,2)))
[1] "Standardabweichung der Variable Sales: 5.22"
Getrimmter Mittelwert
Bei dem getrimmten Mittelwert wird ein bestimmer Anteil der größten und kleinsten Beobachtungen - hier oberhalb des 90% Quantils und unterhalb des 10 % Quantils - ignoriert. Damit sollen Ausreißer aus der Berechnung des Mittelwerts ausgeschlossen werden. Der getrimmte Mittelwert kann wie folgt in R berechnet werden:
mean_trim_sales <-mean(Advertising$sales, trim =0.1, na.rm =TRUE)print(paste0("Getrimmter Mittelwert der Variable Sales: ", round(mean_trim_sales, 2)))
[1] "Getrimmter Mittelwert der Variable Sales: 13.78"
Schiefe
Die Schiefe ist eine statistische Kennzahl, die die Art und Stärke der Asymmetrie einer Wahrscheinlichkeitsverteilung beschreibt. Sie zeigt an, ob und wie stark die Verteilung nach rechts (positive Schiefe) oder nach links (negative Schiefe) geneigt ist. Jede nicht symmetrische Verteilung heißt schief.
Darstellung der Verteilung in einem Histogramm:
library(ggplot2)# Vorlage für die Erstellung von plots in ggplot2 plot_1 <-theme_bw() +theme(axis.text.x =element_text(angle =0, size =8, family="Arial", colour='black'),axis.text.y =element_text(angle =0, size =8, family="Arial", colour='black'),axis.title =element_text(size=8, face="bold", family="Arial", colour='black'),panel.grid.major =element_blank(),panel.grid.minor =element_blank(),plot.title=element_text(hjust=0, size=10, family="Arial", face="bold", colour='black'))ggplot(Advertising, aes(sales)) +geom_histogram(binwidth =2, color="red", alpha=.2) +scale_x_continuous(breaks = scales::pretty_breaks(n =10)) +labs(title="Histogramm für Sales", x="Sales", y="Anzahl") + plot_1
Darstellung der Verteilung in einer Dichtefunktion:
In der Abbildung kann man erkennen, dass es sich um eine asymmetrische Verteilung handelt (d.h. es liegt eine Abweichung von der Normalverteilung vor). Konkret handelt es sich um eine rechtsschiefe Verteilung (Mittelwert > Median; Schiefe = + 0.40).
Kurtosis
Die Abweichung des Verlaufs einer Verteilung vom Verlauf einer Normalverteilung wird Kurtosis (Wölbung) genannt. Sie gibt an, wie spitz die Kurve verläuft. Unterschieden wird zwischen positiver, spitz zulaufender (leptokurtische Verteilung) und negativer, flacher (platykurtische Verteilung) Kurtosis. Die Kurtosis zählt zu den zentralen Momenten einer Verteilung, mittels derer der Kurvenverlauf definiert wird. Eine Kurtosis mit Wert 0 ist normalgipflig (mesokurtisch), ein Wert größer 0 ist steilgipflig und ein Wert unter 0 ist flachgipflig.
Standardfehler
Der Standardfehler ein Maß für die durchschnittliche Abweichung des geschätzten Parameterwertes vom wahren Parameterwert. Je kleiner der Standardfehler ist, desto genauer kann der unbekannte Parameter der Population mit Hilfe der Schätzfunktion geschätzt werden. Der Standardfehler hängt unter anderem von dem Stichprobenumfang und der Varianz ab. Allgemein gilt: Je größer der Stichprobenumfang, desto kleiner der Standardfehler; je kleiner die Varianz, desto kleiner der Standardfehler.