Statistik

Kapitel 3 · Bivariate deskriptive Statistik

Regressionsrechnung

📄 Folien:alle Materialien →

Von der Korrelation zur Vorhersage

Liegt eine Wirkungsrichtung nahe (XYX \to Y), beschreibt man YY als Funktion von XX:   yi=β0+β1xi+εi\;y_i = \beta_0 + \beta_1 x_i + \varepsilon_i. Der Fehler ε\varepsilon fängt die Abweichung von Modell und Daten auf.

Kleinste-Quadrate-Methode

Man wählt die Gerade so, dass die Summe der quadrierten vertikalen Abstände minimal wird:

Q(β0,β1)=i=1n(yi(β0+β1xi))2    minQ(\beta_0, \beta_1) = \sum_{i=1}^n (y_i - (\beta_0 + \beta_1 x_i))^2 \;\to\; \min

Ableiten und Nullsetzen liefert die KQ-Schätzer:

b1=i(xixˉ)(yiyˉ)i(xixˉ)2,b0=yˉb1xˉb_1 = \frac{\sum_i (x_i-\bar x)(y_i-\bar y)}{\sum_i (x_i-\bar x)^2}, \qquad b_0 = \bar y - b_1 \bar x

Beachte: b1b_1 hat dasselbe Vorzeichen wie die Kovarianz (und wie rr). Die Gerade geht stets durch den Schwerpunkt (xˉ,yˉ)(\bar x, \bar y).

r = 0.935 (stark) = 0.874ŷ = 1.11 + 0.81·x

Klick setzt einen Punkt, Ziehen verschiebt ihn. Probiere eine Punktwolke mit r ≈ 0 und eine mit einem Ausreißer, der r kippt.

Durchgerechnet: »Schlafverhalten«

Fernsehzeit XX und Tiefschlafdauer YY von 9 Kindern. Aus den Daten: (xixˉ)(yiyˉ)=3,71\sum(x_i-\bar x)(y_i-\bar y) = -3{,}71, (xixˉ)2=8,24\sum(x_i-\bar x)^2 = 8{,}24, xˉ=1,33\bar x = 1{,}33, yˉ=5,56\bar y = 5{,}56. Damit:

b1=3,718,240,45,b0=5,56(0,45)(1,33)6,16b_1 = \frac{-3{,}71}{8{,}24} \approx -0{,}45, \qquad b_0 = 5{,}56 - (-0{,}45)(1{,}33) \approx 6{,}16 Tiefschlaf^=6,160,45Fernsehzeit\widehat{\text{Tiefschlaf}} = 6{,}16 - 0{,}45 \cdot \text{Fernsehzeit}

Interpretation: ohne Fernsehen ca. 6,16 h Tiefschlaf; je Stunde Fernsehen rund 0,45 h weniger. (Im Test gegen den Kern reproduziert.)

Streuungszerlegung

Die Gesamtstreuung von YY zerlegt sich additiv in einen erklärten und einen nicht erklärten (Residuen-)Anteil:

i(yiyˉ)2SST (gesamt)=i(y^iyˉ)2SSR (erkla¨rt)+i(yiy^i)2SSE (Residuen)\underbrace{\sum_i (y_i - \bar y)^2}_{SST\ \text{(gesamt)}} = \underbrace{\sum_i (\hat y_i - \bar y)^2}_{SSR\ \text{(erklärt)}} + \underbrace{\sum_i (y_i - \hat y_i)^2}_{SSE\ \text{(Residuen)}}

Bestimmtheitsmaß und Residuen

Das Bestimmtheitsmaß ist gerade der Anteil der erklärten an der gesamten Streuung:

R2=SSRSST=1SSESST[0,1]R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} \in [0,1]

Bei Einfachregression gilt R2=r2R^2 = r^2. Für das Schlafbeispiel R20,45R^2 \approx 0{,}45.

Die Residuen e^i=yiy^i\hat e_i = y_i - \hat y_i zeigen, wie gut das Modell passt: Ein Residuenplot ohne Muster spricht für ein gutes Modell; ein Trend oder eine sich ändernde Streuung deutet auf Modellverletzungen.

Klausurfalle: R2R^2 ist nicht die Steigung und nicht rr selbst, sondern r2r^2. Und: Eine gut passende Gerade rechtfertigt keine Extrapolation weit außerhalb des Datenbereichs.

Quellen:K03 S.200, K03 S.205, K03 S.209, K03 S.210, K03 S.212, K03 S.213

Abruf-Quiz

Frage 1 / 4

Schlafverhalten: (xixˉ)(yiyˉ)=3,71\sum(x_i-\bar x)(y_i-\bar y)=-3{,}71, (xixˉ)2=8,24\sum(x_i-\bar x)^2=8{,}24. Wie groß ist die Steigung b1b_1? (2 Nachkommastellen)