p-Werte#

Der p-Wert ist eines der am häufigsten verwendeten – und am häufigsten missverstandenen – Konzepte in der Statistik. Ein korrektes Verständnis ist entscheidend für die Interpretation jedes statistischen Tests.

Definition#

Der p-Wert ist die Wahrscheinlichkeit, ein mindestens so extremes Ergebnis wie das beobachtete zu erhalten, wenn die Nullhypothese wahr ist.

Formal ausgedrückt:

p = P(\text{Daten} \geq \text{beobachtetes Ergebnis} \mid H_0 \text{ ist wahr})

Ein kleiner p-Wert bedeutet: Das beobachtete Ergebnis wäre unter der Nullhypothese unwahrscheinlich. Das spricht gegen die Nullhypothese.

Das Signifikanzniveau α#

Das Signifikanzniveau (Alpha, α) ist ein im Voraus festgelegter Schwellenwert. In den meisten Disziplinen gilt:

\alpha = 0{,}05

Die Entscheidungsregel lautet:

p < α → Ergebnis ist statistisch signifikant → Nullhypothese wird abgelehnt
p ≥ α → Ergebnis ist nicht signifikant → Nullhypothese kann nicht abgelehnt werden

Beispiel: t-Test mit p = 0,03

Ein t-Test zum Vergleich zweier Gruppen ergibt p = 0,03.

Korrekte Interpretation: Unter der Annahme, dass kein Unterschied zwischen den Gruppen besteht (H₀), würde man in nur 3 % der Fälle ein so extremes oder extremeres Ergebnis erhalten. Da 0,03 < 0,05, wird das Ergebnis als statistisch signifikant betrachtet.

Falsche Interpretation: „Es gibt eine 97%-ige Wahrscheinlichkeit, dass der Effekt echt ist." – Das ist nicht korrekt!

Verschiedene Alpha-Niveaus#

Niveau	Bezeichnung	Verwendung
α = 0,10	Marginal signifikant	Explorative Studien
α = 0,05	Signifikant	Standard in den meisten Fachgebieten
α = 0,01	Hoch signifikant	Strengere Kriterien
α = 0,001	Höchst signifikant	Sehr konservative Tests

Einseitige vs. zweiseitige Tests#

Zweiseitiger Test: Prüft, ob ein Unterschied in beide Richtungen vorliegt. Standardmäßig empfohlen.
Einseitiger Test: Prüft nur eine Richtung (z. B. „Gruppe A ist besser als Gruppe B"). Der p-Wert ist halb so groß.

p_{\text{einseitig}} = \frac{p_{\text{zweiseitig}}}{2}

Wichtig: Einseitige Tests sollten nur verwendet werden, wenn die Richtung des Effekts vor der Datenerhebung festgelegt wurde.

Multiples Testen#

Werden mehrere Tests gleichzeitig durchgeführt, steigt die Wahrscheinlichkeit, mindestens einen falsch-positiven Befund zu erhalten:

P(\text{mindestens ein Fehler}) = 1 - (1 - \alpha)^m

Bei 20 Tests mit α = 0,05 beträgt die Wahrscheinlichkeit für mindestens einen Fehler bereits 64 %.

Korrekturen:

Bonferroni: $\alpha_{\text{korrigiert}} = \frac{\alpha}{m}$ — Einfach, aber konservativ
Holm-Bonferroni: Schrittweise Korrektur, weniger konservativ
Benjamini-Hochberg: Kontrolliert die False Discovery Rate (FDR)

p-Wert und Effektstärke#

Ein signifikanter p-Wert sagt nichts über die praktische Bedeutsamkeit eines Effekts aus.

Beispiel: Große Stichprobe, kleiner Effekt

Bei n = 10.000 pro Gruppe findet ein t-Test einen signifikanten Unterschied (p < 0,001) von 0,5 Punkten auf einer 100-Punkte-Skala. Statistisch signifikant – aber praktisch völlig irrelevant.

Deshalb sollte immer die Effektstärke zusätzlich berichtet werden.

Häufige Missverständnisse#

„Der p-Wert ist die Wahrscheinlichkeit, dass die Nullhypothese wahr ist." Falsch. Der p-Wert sagt nichts über die Wahrscheinlichkeit der Hypothese. Er gibt die Wahrscheinlichkeit der Daten unter der Annahme der Nullhypothese an.

„p = 0,05 bedeutet, dass der Effekt mit 95 % Sicherheit real ist." Falsch. Der p-Wert ist keine Wahrscheinlichkeit für die Hypothese, sondern für die Daten.

„Ein nicht-signifikantes Ergebnis beweist, dass kein Effekt existiert." Falsch. Ein p > 0,05 bedeutet nur, dass die Evidenz nicht ausreicht, um die Nullhypothese abzulehnen. Der Effekt könnte dennoch existieren (fehlende Power).

„p = 0,049 und p = 0,051 sind grundlegend verschieden." Falsch. Der Unterschied ist minimal. Die Grenze bei 0,05 ist eine Konvention, kein Naturgesetz. Die Interpretation sollte nicht auf einem einzelnen Schwellenwert basieren.

„Je kleiner der p-Wert, desto größer der Effekt." Falsch. Der p-Wert hängt von der Effektstärke und der Stichprobengröße ab. Ein winziger Effekt kann bei riesiger Stichprobe hochsignifikant sein.

Weiterführende Literatur

Fisher, R. A. (1925). Statistical Methods for Research Workers. Oliver and Boyd.
Wasserstein, R. L. & Lazar, N. A. (2016). The ASA statement on p-values: Context, process, and purpose. The American Statistician, 70(2), 129–133.
Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5. Aufl.). SAGE.