PickMyTest

p-Werte

Was p-Werte wirklich aussagen und wie man sie korrekt interpretiert

p-Werte#

Der p-Wert ist eines der am hĂ€ufigsten verwendeten – und am hĂ€ufigsten missverstandenen – Konzepte in der Statistik. Ein korrektes VerstĂ€ndnis ist entscheidend fĂŒr die Interpretation jedes statistischen Tests.

Definition#

Der p-Wert ist die Wahrscheinlichkeit, ein mindestens so extremes Ergebnis wie das beobachtete zu erhalten, wenn die Nullhypothese wahr ist.

Formal ausgedrĂŒckt:

p=P(Daten≄beobachtetes Ergebnis∣H0 ist wahr)p = P(\text{Daten} \geq \text{beobachtetes Ergebnis} \mid H_0 \text{ ist wahr})

Ein kleiner p-Wert bedeutet: Das beobachtete Ergebnis wÀre unter der Nullhypothese unwahrscheinlich. Das spricht gegen die Nullhypothese.

Das Signifikanzniveau α#

Das Signifikanzniveau (Alpha, α) ist ein im Voraus festgelegter Schwellenwert. In den meisten Disziplinen gilt:

α=0,05\alpha = 0{,}05

Die Entscheidungsregel lautet:

  • p < α → Ergebnis ist statistisch signifikant → Nullhypothese wird abgelehnt
  • p ≄ α → Ergebnis ist nicht signifikant → Nullhypothese kann nicht abgelehnt werden

Beispiel: t-Test mit p = 0,03

Ein t-Test zum Vergleich zweier Gruppen ergibt p = 0,03.

Korrekte Interpretation: Unter der Annahme, dass kein Unterschied zwischen den Gruppen besteht (H₀), wĂŒrde man in nur 3 % der FĂ€lle ein so extremes oder extremeres Ergebnis erhalten. Da 0,03 < 0,05, wird das Ergebnis als statistisch signifikant betrachtet.

Falsche Interpretation: „Es gibt eine 97%-ige Wahrscheinlichkeit, dass der Effekt echt ist." – Das ist nicht korrekt!

Verschiedene Alpha-Niveaus#

NiveauBezeichnungVerwendung
α = 0,10Marginal signifikantExplorative Studien
α = 0,05SignifikantStandard in den meisten Fachgebieten
α = 0,01Hoch signifikantStrengere Kriterien
α = 0,001Höchst signifikantSehr konservative Tests

Einseitige vs. zweiseitige Tests#

  • Zweiseitiger Test: PrĂŒft, ob ein Unterschied in beide Richtungen vorliegt. StandardmĂ€ĂŸig empfohlen.
  • Einseitiger Test: PrĂŒft nur eine Richtung (z. B. „Gruppe A ist besser als Gruppe B"). Der p-Wert ist halb so groß.
peinseitig=pzweiseitig2p_{\text{einseitig}} = \frac{p_{\text{zweiseitig}}}{2}

Wichtig: Einseitige Tests sollten nur verwendet werden, wenn die Richtung des Effekts vor der Datenerhebung festgelegt wurde.

Multiples Testen#

Werden mehrere Tests gleichzeitig durchgefĂŒhrt, steigt die Wahrscheinlichkeit, mindestens einen falsch-positiven Befund zu erhalten:

P(mindestens ein Fehler)=1−(1−α)mP(\text{mindestens ein Fehler}) = 1 - (1 - \alpha)^m

Bei 20 Tests mit α = 0,05 betrĂ€gt die Wahrscheinlichkeit fĂŒr mindestens einen Fehler bereits 64 %.

Korrekturen:

  • Bonferroni: αkorrigiert=αm\alpha_{\text{korrigiert}} = \frac{\alpha}{m} — Einfach, aber konservativ
  • Holm-Bonferroni: Schrittweise Korrektur, weniger konservativ
  • Benjamini-Hochberg: Kontrolliert die False Discovery Rate (FDR)

p-Wert und EffektstÀrke#

Ein signifikanter p-Wert sagt nichts ĂŒber die praktische Bedeutsamkeit eines Effekts aus.

Beispiel: Große Stichprobe, kleiner Effekt

Bei n = 10.000 pro Gruppe findet ein t-Test einen signifikanten Unterschied (p < 0,001) von 0,5 Punkten auf einer 100-Punkte-Skala. Statistisch signifikant – aber praktisch völlig irrelevant.

Deshalb sollte immer die EffektstÀrke zusÀtzlich berichtet werden.

HÀufige MissverstÀndnisse#

„Der p-Wert ist die Wahrscheinlichkeit, dass die Nullhypothese wahr ist." Falsch. Der p-Wert sagt nichts ĂŒber die Wahrscheinlichkeit der Hypothese. Er gibt die Wahrscheinlichkeit der Daten unter der Annahme der Nullhypothese an.

„p = 0,05 bedeutet, dass der Effekt mit 95 % Sicherheit real ist." Falsch. Der p-Wert ist keine Wahrscheinlichkeit fĂŒr die Hypothese, sondern fĂŒr die Daten.

„Ein nicht-signifikantes Ergebnis beweist, dass kein Effekt existiert." Falsch. Ein p > 0,05 bedeutet nur, dass die Evidenz nicht ausreicht, um die Nullhypothese abzulehnen. Der Effekt könnte dennoch existieren (fehlende Power).

„p = 0,049 und p = 0,051 sind grundlegend verschieden." Falsch. Der Unterschied ist minimal. Die Grenze bei 0,05 ist eine Konvention, kein Naturgesetz. Die Interpretation sollte nicht auf einem einzelnen Schwellenwert basieren.

„Je kleiner der p-Wert, desto grĂ¶ĂŸer der Effekt." Falsch. Der p-Wert hĂ€ngt von der EffektstĂ€rke und der StichprobengrĂ¶ĂŸe ab. Ein winziger Effekt kann bei riesiger Stichprobe hochsignifikant sein.

WeiterfĂŒhrende Literatur

  • Fisher, R. A. (1925). Statistical Methods for Research Workers. Oliver and Boyd.
  • Wasserstein, R. L. & Lazar, N. A. (2016). The ASA statement on p-values: Context, process, and purpose. The American Statistician, 70(2), 129–133.
  • Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5. Aufl.). SAGE.