Partialkorrelation#

Die Partialkorrelation misst den linearen Zusammenhang zwischen zwei Variablen $X$ und $Y$ , nachdem der Einfluss einer oder mehrerer Kontrollvariablen $Z$ statistisch herausgerechnet wurde. Sie ist ein unverzichtbares Werkzeug, um Scheinkorrelationen aufzudecken und den „wahren" Zusammenhang zwischen zwei Variablen zu isolieren. Wenn eine Drittvariable sowohl $X$ als auch $Y$ beeinflusst, kann die einfache Pearson-Korrelation ein verzerrtes Bild liefern — die Partialkorrelation bereinigt diesen Effekt.

Wann verwenden?#

Du vermutest, dass der Zusammenhang zwischen $X$ und $Y$ durch eine Drittvariable $Z$ verzerrt sein könnte
Du möchtest prüfen, ob eine beobachtete Korrelation eine Scheinkorrelation ist
Du willst den bereinigten Zusammenhang zwischen zwei Variablen berichten
Alle Variablen sind metrisch (intervall- oder ratioskaliert)
Du möchtest den Einfluss einer Störvariable (Confounder) kontrollieren, ohne eine vollständige Regressionsanalyse durchzuführen

Voraussetzungen#

Metrisches Skalenniveau aller Variablen (X, Y und Z)
Lineare Beziehung zwischen allen Variablenpaaren
Annähernde Normalverteilung aller Variablen
Unabhängige Beobachtungen
Keine perfekte Multikollinearität zwischen den Variablen

Formel#

Die Partialkorrelation erster Ordnung (Kontrolle einer Variable $Z$ ) berechnet sich aus den drei bivariaten Pearson-Korrelationen:

r_{XY \cdot Z} = \frac{r_{XY} - r_{XZ} \cdot r_{YZ}}{\sqrt{(1 - r_{XZ}^2)(1 - r_{YZ}^2)}}

Dabei ist $r_{XY}$ die Korrelation zwischen $X$ und $Y$ , $r_{XZ}$ die Korrelation zwischen $X$ und $Z$ , und $r_{YZ}$ die Korrelation zwischen $Y$ und $Z$ .

Die Signifikanz wird mit einem t-Test geprüft:

t = \frac{r_{XY \cdot Z} \cdot \sqrt{n - 3}}{\sqrt{1 - r_{XY \cdot Z}^2}}, \quad df = n - 3

Bei Kontrolle von $k$ Variablen gilt $df = n - 2 - k$ .

Beispiel#

Praxisbeispiel: Eisverkauf, Ertrinken und Temperatur

Eine Studie findet eine hohe positive Korrelation zwischen Eisverkäufen ( $X$ ) und der Anzahl der Ertrinkungsfälle ( $Y$ ) in Freibädern. Bedeutet mehr Eis essen ein höheres Ertrinkungsrisiko? Natürlich nicht — die Temperatur ( $Z$ ) ist die gemeinsame Ursache.

Korrelationen (n = 50 Sommertage):

$r_{XY} = 0.83$ (Eisverkauf ↔ Ertrinkungsfälle)
$r_{XZ} = 0.90$ (Eisverkauf ↔ Temperatur)
$r_{YZ} = 0.88$ (Ertrinkungsfälle ↔ Temperatur)

Berechnung der Partialkorrelation:

r_{XY \cdot Z} = \frac{0.83 - 0.90 \cdot 0.88}{\sqrt{(1 - 0.90^2)(1 - 0.88^2)}} = \frac{0.83 - 0.792}{\sqrt{0.19 \cdot 0.2256}} = \frac{0.038}{0.207} = 0.18

Interpretation: Die ursprünglich starke Korrelation von $r = 0.83$ sinkt nach Kontrolle der Temperatur auf $r_{XY \cdot Z} = 0.18$ — ein nur noch kleiner, vermutlich nicht signifikanter Zusammenhang. Die beobachtete Korrelation war größtenteils eine Scheinkorrelation, verursacht durch die gemeinsame Drittvariable Temperatur.

Effektstärke#

Die Partialkorrelation $r_{XY \cdot Z}$ ist selbst ein Effektstärkemaß und wird nach denselben Konventionen wie Pearsons $r$ interpretiert:

| $|r_{XY \cdot Z}|$ | Interpretation | |---|---| | 0.10 | Kleiner Effekt | | 0.30 | Mittlerer Effekt | | 0.50 | Großer Effekt |

Zusätzlich kann der Anteil der einzigartig erklärten Varianz berechnet werden:

R^2_{\text{partial}} = r_{XY \cdot Z}^2

Dieser Wert gibt an, wie viel Varianz von $Y$ durch $X$ erklärt wird, nachdem der Einfluss von $Z$ bereits berücksichtigt wurde. Im obigen Beispiel erklärt der Eisverkauf nach Kontrolle der Temperatur nur noch $0.18^2 = 3.2\%$ der Varianz in den Ertrinkungsfällen.

Weiterführende Literatur

Bortz, J. & Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler (7. Aufl.). Springer.
Cohen, J., Cohen, P., West, S. G. & Aiken, L. S. (2003). Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences (3. Aufl.). Lawrence Erlbaum Associates.
Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5. Aufl.). SAGE Publications.