Multiple lineare Regression#
Die multiple lineare Regression modelliert den Zusammenhang zwischen einer metrischen abhängigen Variable (Kriterium) und mehreren unabhängigen Variablen (Prädiktoren). Sie ermöglicht es, den Einfluss mehrerer Prädiktoren gleichzeitig zu untersuchen und Vorhersagen zu treffen.
Wann verwenden?#
Verwende die multiple Regression, wenn du:
- Den Einfluss mehrerer Prädiktoren auf eine abhängige Variable untersuchen möchtest
- Die abhängige Variable metrisch (stetig) ist
- Vorhersagen auf Basis mehrerer unabhängiger Variablen treffen möchtest
- Den relativen Beitrag einzelner Prädiktoren bestimmen möchtest
Voraussetzungen#
- Linearität: Linearer Zusammenhang zwischen Prädiktoren und Kriterium
- Normalverteilung der Residuen (Q-Q-Plot, Shapiro-Wilk-Test)
- Homoskedastizität: Konstante Varianz der Residuen (Breusch-Pagan-Test)
- Keine Multikollinearität: Prädiktoren sind nicht zu stark korreliert (VIF < 10)
- Unabhängigkeit der Residuen (Durbin-Watson-Test)
- Keine einflussreichen Ausreißer (Cook's Distance)
Formel#
Das Regressionsmodell lautet:
wobei:
- die abhängige Variable ist
- der Achsenabschnitt (Intercept) ist
- die Regressionskoeffizienten der Prädiktoren sind
- der Fehlerterm ist (normalverteilt mit Mittelwert 0)
Die Koeffizienten werden durch die Methode der kleinsten Quadrate (OLS) geschätzt:
Beispiel#
Praxisbeispiel: Gehaltsprognose
Ein Personalberater möchte das Gehalt von Angestellten vorhersagen. Als Prädiktoren verwendet er:
- X₁: Berufserfahrung (in Jahren)
- X₂: Bildungsniveau (Anzahl der Ausbildungsjahre)
- X₃: Wochenarbeitszeit (in Stunden)
Das Modell ergibt: Gehalt = 15.000 + 2.500 · Erfahrung + 1.800 · Bildung + 300 · Arbeitszeit
Interpretation: Mit jedem zusätzlichen Jahr Berufserfahrung steigt das Gehalt im Durchschnitt um 2.500 €, wenn die anderen Variablen konstant gehalten werden (ceteris paribus).
Effektstärke#
Das Bestimmtheitsmaß R² und das adjustierte R² als Maße der Effektstärke:
| Effektstärke | R² (nach Cohen) |
|---|---|
| Klein | 0.02 |
| Mittel | 0.13 |
| Groß | 0.26 |
Zusätzlich gibt Cohens f² die Effektstärke an:
Wichtig: Ein hohes R² bedeutet nicht automatisch ein kausales Modell. Die standardisierten Koeffizienten (Beta-Gewichte) ermöglichen den Vergleich der relativen Wichtigkeit der Prädiktoren.
Weiterführende Literatur
- Cohen, J., Cohen, P., West, S. G. & Aiken, L. S. (2003). Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences (3. Aufl.). Lawrence Erlbaum Associates.
- Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5. Aufl.). SAGE.