PickMyTest

Multiple lineare Regression

Modelliert den Zusammenhang zwischen einer metrischen abhängigen Variable und mehreren unabhängigen Variablen

Multiple lineare Regression#

Die multiple lineare Regression modelliert den Zusammenhang zwischen einer metrischen abhängigen Variable (Kriterium) und mehreren unabhängigen Variablen (Prädiktoren). Sie ermöglicht es, den Einfluss mehrerer Prädiktoren gleichzeitig zu untersuchen und Vorhersagen zu treffen.

Wann verwenden?#

Verwende die multiple Regression, wenn du:

  • Den Einfluss mehrerer Prädiktoren auf eine abhängige Variable untersuchen möchtest
  • Die abhängige Variable metrisch (stetig) ist
  • Vorhersagen auf Basis mehrerer unabhängiger Variablen treffen möchtest
  • Den relativen Beitrag einzelner Prädiktoren bestimmen möchtest

Voraussetzungen#

  • Linearität: Linearer Zusammenhang zwischen Prädiktoren und Kriterium
  • Normalverteilung der Residuen (Q-Q-Plot, Shapiro-Wilk-Test)
  • Homoskedastizität: Konstante Varianz der Residuen (Breusch-Pagan-Test)
  • Keine Multikollinearität: Prädiktoren sind nicht zu stark korreliert (VIF < 10)
  • Unabhängigkeit der Residuen (Durbin-Watson-Test)
  • Keine einflussreichen Ausreißer (Cook's Distance)

Formel#

Das Regressionsmodell lautet:

Y=β0+β1X1+β2X2++βkXk+εY = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \varepsilon

wobei:

  • YY die abhängige Variable ist
  • β0\beta_0 der Achsenabschnitt (Intercept) ist
  • β1,β2,,βk\beta_1, \beta_2, \dots, \beta_k die Regressionskoeffizienten der Prädiktoren sind
  • ε\varepsilon der Fehlerterm ist (normalverteilt mit Mittelwert 0)

Die Koeffizienten werden durch die Methode der kleinsten Quadrate (OLS) geschätzt:

β^=(XTX)1XTY\hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y}

Beispiel#

Praxisbeispiel: Gehaltsprognose

Ein Personalberater möchte das Gehalt von Angestellten vorhersagen. Als Prädiktoren verwendet er:

  • X₁: Berufserfahrung (in Jahren)
  • X₂: Bildungsniveau (Anzahl der Ausbildungsjahre)
  • X₃: Wochenarbeitszeit (in Stunden)

Das Modell ergibt: Gehalt = 15.000 + 2.500 · Erfahrung + 1.800 · Bildung + 300 · Arbeitszeit

Interpretation: Mit jedem zusätzlichen Jahr Berufserfahrung steigt das Gehalt im Durchschnitt um 2.500 €, wenn die anderen Variablen konstant gehalten werden (ceteris paribus).

Effektstärke#

Das Bestimmtheitsmaß R² und das adjustierte R² als Maße der Effektstärke:

R2=1SSResiduenSSTotalR^2 = 1 - \frac{SS_{\text{Residuen}}}{SS_{\text{Total}}} Radj2=1(1R2)(n1)nk1R^2_{\text{adj}} = 1 - \frac{(1 - R^2)(n - 1)}{n - k - 1}
EffektstärkeR² (nach Cohen)
Klein0.02
Mittel0.13
Groß0.26

Zusätzlich gibt Cohens f² die Effektstärke an:

f2=R21R2f^2 = \frac{R^2}{1 - R^2}

Wichtig: Ein hohes R² bedeutet nicht automatisch ein kausales Modell. Die standardisierten Koeffizienten (Beta-Gewichte) ermöglichen den Vergleich der relativen Wichtigkeit der Prädiktoren.

Weiterführende Literatur

  • Cohen, J., Cohen, P., West, S. G. & Aiken, L. S. (2003). Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences (3. Aufl.). Lawrence Erlbaum Associates.
  • Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5. Aufl.). SAGE.