Chi-Quadrat-Unabhängigkeitstest#

Der Chi-Quadrat-Unabhängigkeitstest ( $\chi^2$ -Test) prüft, ob zwei kategoriale Variablen statistisch unabhängig voneinander sind. Er basiert auf dem Vergleich beobachteter und erwarteter Häufigkeiten in einer Kreuztabelle.

Wann verwenden?#

Verwende den Chi-Quadrat-Test, wenn du:

Den Zusammenhang zwischen zwei kategorialen Variablen untersuchen möchtest
Die Daten als Häufigkeiten in einer Kreuztabelle vorliegen
Die erwarteten Häufigkeiten in allen Zellen mindestens 5 betragen
Die Stichprobe ausreichend groß ist

Voraussetzungen#

Unabhängigkeit der Beobachtungen
Kategoriale (nominale oder ordinale) Variablen
Erwartete Häufigkeiten ≥ 5 in allen Zellen der Kreuztabelle
Zufällige Stichprobenziehung

Formel#

Die Teststatistik berechnet sich als:

\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}

wobei $O_{ij}$ die beobachtete Häufigkeit und $E_{ij}$ die erwartete Häufigkeit in Zelle $(i, j)$ ist. Die erwarteten Häufigkeiten berechnen sich als:

E_{ij} = \frac{n_{i \cdot} \cdot n_{\cdot j}}{N}

wobei $n_{i \cdot}$ die Zeilensumme, $n_{\cdot j}$ die Spaltensumme und $N$ die Gesamtanzahl ist.

Beispiel#

Praxisbeispiel: Rauchen und Geschlecht

Ein Forscher untersucht, ob ein Zusammenhang zwischen Geschlecht und Rauchverhalten besteht. Dazu werden 200 Personen befragt:

	Raucher	Nichtraucher	Summe
Männlich	45	55	100
Weiblich	30	70	100
Summe	75	125	200

Der Chi-Quadrat-Test prüft, ob die Verteilung des Rauchverhaltens unabhängig vom Geschlecht ist. Die erwartete Häufigkeit für "Männlich/Raucher" wäre $\frac{100 \cdot 75}{200} = 37{,}5$ .

Effektstärke#

Cramers V als Maß der Effektstärke:

V = \sqrt{\frac{\chi^2}{N \cdot (\min(r, c) - 1)}}

wobei $r$ die Anzahl der Zeilen und $c$ die Anzahl der Spalten ist.

Effektstärke	Cramers V (df*=1)	Cramers V (df*=2)
Klein	0.10	0.07
Mittel	0.30	0.21
Groß	0.50	0.35

df = min(r, c) - 1

Weiterführende Literatur

Pearson, K. (1900). On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. Philosophical Magazine, 50(302), 157–175.
Agresti, A. (2007). An Introduction to Categorical Data Analysis (2. Aufl.). Wiley.
Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5. Aufl.). SAGE.