Multiple lineare Regression#

Die multiple lineare Regression modelliert den Zusammenhang zwischen einer metrischen abhängigen Variable (Kriterium) und mehreren unabhängigen Variablen (Prädiktoren). Sie ermöglicht es, den Einfluss mehrerer Prädiktoren gleichzeitig zu untersuchen und Vorhersagen zu treffen.

Wann verwenden?#

Verwende die multiple Regression, wenn du:

Den Einfluss mehrerer Prädiktoren auf eine abhängige Variable untersuchen möchtest
Die abhängige Variable metrisch (stetig) ist
Vorhersagen auf Basis mehrerer unabhängiger Variablen treffen möchtest
Den relativen Beitrag einzelner Prädiktoren bestimmen möchtest

Voraussetzungen#

Linearität: Linearer Zusammenhang zwischen Prädiktoren und Kriterium
Normalverteilung der Residuen (Q-Q-Plot, Shapiro-Wilk-Test)
Homoskedastizität: Konstante Varianz der Residuen (Breusch-Pagan-Test)
Keine Multikollinearität: Prädiktoren sind nicht zu stark korreliert (VIF < 10)
Unabhängigkeit der Residuen (Durbin-Watson-Test)
Keine einflussreichen Ausreißer (Cook's Distance)

Formel#

Das Regressionsmodell lautet:

Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \varepsilon

wobei:

$Y$ die abhängige Variable ist
$\beta_0$ der Achsenabschnitt (Intercept) ist
$\beta_1, \beta_2, \dots, \beta_k$ die Regressionskoeffizienten der Prädiktoren sind
$\varepsilon$ der Fehlerterm ist (normalverteilt mit Mittelwert 0)

Die Koeffizienten werden durch die Methode der kleinsten Quadrate (OLS) geschätzt:

\hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y}

Beispiel#

Praxisbeispiel: Gehaltsprognose

Ein Personalberater möchte das Gehalt von Angestellten vorhersagen. Als Prädiktoren verwendet er:

X₁: Berufserfahrung (in Jahren)
X₂: Bildungsniveau (Anzahl der Ausbildungsjahre)
X₃: Wochenarbeitszeit (in Stunden)

Das Modell ergibt: Gehalt = 15.000 + 2.500 · Erfahrung + 1.800 · Bildung + 300 · Arbeitszeit

Interpretation: Mit jedem zusätzlichen Jahr Berufserfahrung steigt das Gehalt im Durchschnitt um 2.500 €, wenn die anderen Variablen konstant gehalten werden (ceteris paribus).

Effektstärke#

Das Bestimmtheitsmaß R² und das adjustierte R² als Maße der Effektstärke:

R^2 = 1 - \frac{SS_{\text{Residuen}}}{SS_{\text{Total}}}

R^2_{\text{adj}} = 1 - \frac{(1 - R^2)(n - 1)}{n - k - 1}

Effektstärke	R² (nach Cohen)
Klein	0.02
Mittel	0.13
Groß	0.26

Zusätzlich gibt Cohens f² die Effektstärke an:

f^2 = \frac{R^2}{1 - R^2}

Wichtig: Ein hohes R² bedeutet nicht automatisch ein kausales Modell. Die standardisierten Koeffizienten (Beta-Gewichte) ermöglichen den Vergleich der relativen Wichtigkeit der Prädiktoren.

Weiterführende Literatur

Cohen, J., Cohen, P., West, S. G. & Aiken, L. S. (2003). Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences (3. Aufl.). Lawrence Erlbaum Associates.
Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5. Aufl.). SAGE.