Kovariaten#

Eine Kovariate ist eine Variable, die mit der abhängigen Variable zusammenhängt und deren Einfluss man statistisch kontrollieren möchte. Durch die Berücksichtigung von Kovariaten kann man genauere Schätzungen des untersuchten Effekts erhalten.

Grundidee#

Wenn du den Effekt einer Behandlung untersuchen möchtest, gibt es oft andere Variablen, die das Ergebnis ebenfalls beeinflussen. Indem du diese Variablen als Kovariaten in die Analyse einbeziehst, kannst du ihren Einfluss herausrechnen und den „reinen" Effekt der Behandlung isolieren.

Beispiel: Warum Kovariaten wichtig sind

Ein Forscher vergleicht zwei Lehrmethoden hinsichtlich des Lernerfolgs. Die Schüler unterscheiden sich aber auch in ihrem Vorwissen.

Ohne Kovariate: Der Unterschied zwischen den Methoden könnte durch Vorwissensunterschiede verzerrt sein.

Mit Kovariate (Vorwissen): Der Effekt der Lehrmethode wird um den Einfluss des Vorwissens bereinigt. Das Ergebnis zeigt den „echten" Effekt der Methode.

Arten von Kovariaten#

Störvariablen (Confounders)#

Eine Variable, die sowohl mit der unabhängigen als auch mit der abhängigen Variable zusammenhängt. Wird sie nicht kontrolliert, kann der Effekt verzerrt (konfundiert) sein.

Klassischer Confounder

Untersuchung: Zusammenhang zwischen Eiskonsum und Ertrinkungsfällen.

Mehr Eiskonsum → Mehr Ertrinkungsfälle (positive Korrelation)
Confounder: Die Temperatur beeinflusst beides. Im Sommer essen Menschen mehr Eis UND gehen häufiger schwimmen.

Kontrolliert man die Temperatur, verschwindet der scheinbare Zusammenhang.

Kontrollvariablen#

Variablen, die man in die Analyse einbezieht, um die Fehlervarianz zu reduzieren und die Power zu erhöhen. Sie müssen nicht notwendigerweise Confounder sein.

Mediatoren und Moderatoren#

Mediator: Erklärt den Mechanismus des Effekts (UV → Mediator → AV)
Moderator: Verändert die Stärke des Effekts (der Effekt hängt vom Moderator ab)

Diese werden anders behandelt als klassische Kovariaten.

ANCOVA — Kovarianzanalyse#

Die ANCOVA (Analysis of Covariance) kombiniert ANOVA und Regression. Sie vergleicht Gruppenmittelwerte, nachdem der Einfluss einer oder mehrerer Kovariaten herausgerechnet wurde.

Das Modell:

Y_{ij} = \mu + \tau_i + \beta(X_{ij} - \bar{X}) + \varepsilon_{ij}

wobei:

$\tau_i$ der Effekt der Gruppe i ist
$\beta$ der Regressionskoeffizient der Kovariate ist
$X_{ij}$ der Wert der Kovariate ist

Voraussetzungen der ANCOVA#

Alle ANOVA-Voraussetzungen (Normalverteilung, Varianzhomogenität, Unabhängigkeit)
Linearer Zusammenhang zwischen Kovariate und AV
Homogenität der Regressionssteigungen — Der Zusammenhang zwischen Kovariate und AV muss in allen Gruppen gleich sein
Kovariate unabhängig von UV — Die Gruppenzugehörigkeit darf die Kovariate nicht beeinflusst haben

Wann ANCOVA verwenden?#

In experimentellen Designs zur Erhöhung der Power durch Reduktion der Fehlervarianz
In quasi-experimentellen Designs zur Kontrolle von Vorunterschieden zwischen Gruppen

Beispiel: ANCOVA in der Praxis

Vergleich zweier Therapien bei Depression:

AV: Depressionsscore nach 8 Wochen
UV: Therapieform (A vs. B)
Kovariate: Depressionsscore vor der Therapie (Baseline)

Die ANCOVA vergleicht die Gruppen, nachdem der Einfluss der Baseline-Werte herausgerechnet wurde. So wird ein fairer Vergleich möglich, auch wenn die Gruppen unterschiedliche Ausgangswerte hatten.

Kovariaten in der Regression#

In der multiplen Regression werden Kovariaten als zusätzliche Prädiktoren aufgenommen:

Y = b_0 + b_1 X_1 + b_2 X_2 + ... + b_k X_k + \varepsilon

Der Koeffizient $b_1$ gibt den Effekt von $X_1$ an, kontrolliert für alle anderen Variablen.

Praktische Richtlinien#

Welche Kovariaten aufnehmen?#

Theoretisch begründet: Die Kovariate sollte inhaltlich mit der AV zusammenhängen
Vor der Intervention gemessen: Die Kovariate sollte nicht durch die UV beeinflusst worden sein
Reliabel gemessen: Unreliable Kovariaten verschlechtern die Korrektur

Wie viele Kovariaten?#

Nicht zu viele: Faustregel in der Regression: mindestens 10–20 Beobachtungen pro Prädiktor
Jede Kovariate verbraucht Freiheitsgrade
Zu viele Kovariaten können zu Überanpassung führen

Wann keine Kovariaten verwenden?#

Wenn die Kovariate nach der UV gemessen wurde (Mediator statt Kovariate)
Wenn die Kovariate mit der UV konfundiert ist (z. B. Kovariate unterscheidet sich systematisch zwischen den Gruppen in einem Quasi-Experiment)
Wenn die Voraussetzung der Homogenität der Regressionssteigungen verletzt ist

Häufige Missverständnisse#

„Kovariaten können jedes Konfundierungsproblem lösen." Nein. Nur gemessene Variablen können kontrolliert werden. Nicht gemessene Confounder bleiben unkontrolliert. Deshalb ist Randomisierung der Goldstandard.

„Man sollte so viele Kovariaten wie möglich aufnehmen." Nein. Jede unnötige Kovariate verbraucht Freiheitsgrade und kann die Ergebnisse destabilisieren. Nur theoretisch begründete Kovariaten aufnehmen.

„ANCOVA kann Baseline-Unterschiede in Quasi-Experimenten vollständig ausgleichen." Nicht vollständig. ANCOVA reduziert Bias, kann aber nicht-gemessene Confounder oder nicht-lineare Zusammenhänge nicht korrigieren. Die Ergebnisse bleiben vorsichtig zu interpretieren.

„Die Kovariate muss normalverteilt sein." Nein. In der ANCOVA muss nur die abhängige Variable (bedingt auf die Kovariate) normalverteilt sein. Die Kovariate selbst kann jede Verteilung haben.

Weiterführende Literatur

Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5. Aufl.). SAGE.
Cohen, J., Cohen, P., West, S. G. & Aiken, L. S. (2003). Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences (3. Aufl.). Lawrence Erlbaum Associates.