Kapitel 2 · Univariate deskriptive Statistik

Kumulierte Häufigkeiten

Kumulieren setzt Ordnung voraus

Bei mindestens ordinalskalierten Merkmalen lassen sich die geordneten Ausprägungen $a_1 < \dots < a_k$ sinnvoll aufsummieren. Die kumulierten Häufigkeiten beantworten: „Welcher Anteil der Daten ist $\le x$ ?“

H(x) = \sum_{i\,:\,a_i \le x} h_i, \qquad F(x) = \sum_{i\,:\,a_i \le x} f_i

$F$ heißt empirische Verteilungsfunktion (»empirisch« = aus konkreten Daten berechnet, im Unterschied zur Verteilungsfunktion einer Zufallsvariablen).

Eigenschaften

$H$ und $F$ sind monoton wachsende Treppenfunktionen, die an den Ausprägungen um $h_i$ bzw. $f_i$ nach oben springen. An den Sprungstellen gilt der obere Wert (Treppenkante). Außerdem:

F(x) = 0 \;\text{ für } x < a_1, \qquad F(x) = 1 \;\text{ für } x \ge a_k .

Die Quantile (nächster Abschnitt) sind gerade die Umkehrung dieser Funktion.

Beispiel »Maßkrug Bier«

$x$	0	1	2	3	4	5
$H(x)$	3	4	5	7	9	10
$F(x)$	0,3	0,4	0,5	0,7	0,9	1,0

Ablesebeispiel: $F(2) = 0{,}5$ — die Hälfte der Absolventen trank höchstens 2 Maß.

Abruf-Quiz

Frage 1 / 2

Maßkrug Bier $1,0,3,4,4,2,0,3,0,5$ : Welcher Wert hat die empirische Verteilungsfunktion $F(2)$ ? (Anteil der Werte $\le 2$ )