PickMyTest

Alpha-Korrektur

Warum und wie das Signifikanzniveau bei multiplen Tests korrigiert wird

Alpha-Korrektur#

Jedes Mal, wenn du einen statistischen Test durchfĂŒhrst, gehst du ein Risiko von 5 % ein, fĂ€lschlicherweise ein signifikantes Ergebnis zu finden (bei alpha = 0.05). Das klingt akzeptabel — bei einem einzelnen Test. Aber was passiert, wenn du 10, 20 oder 50 Tests gleichzeitig rechnest? Dann addieren sich diese Risiken, und plötzlich ist die Wahrscheinlichkeit fĂŒr mindestens einen Fehlalarm erschreckend hoch. Genau hier setzt die Alpha-Korrektur an.

Das Problem der multiplen Vergleiche#

Rechenbeispiel: Alpha-Inflation

Du fĂŒhrst 10 unabhĂ€ngige Tests mit alpha = 0.05 durch. Die Wahrscheinlichkeit, bei einem einzelnen Test keinen Fehler 1. Art zu begehen, ist 0.95.

Die Wahrscheinlichkeit, bei allen 10 Tests keinen Fehler zu begehen:

P(kein Fehler)=(1−0.05)10=0.9510=0.60P(\text{kein Fehler}) = (1 - 0.05)^{10} = 0.95^{10} = 0.60

Also betrĂ€gt die Wahrscheinlichkeit fĂŒr mindestens einen Fehler 1. Art:

P(mind. 1 Fehler)=1−0.60=0.40P(\text{mind. 1 Fehler}) = 1 - 0.60 = 0.40

Statt 5 % Fehlerrisiko hast du nun 40 %! Bei 20 Tests wÀren es sogar 64 %.

Dieses anwachsende Fehlerrisiko heisst familywise error rate (FWER) — die Wahrscheinlichkeit, innerhalb einer Familie von Tests mindestens einen Fehler 1. Art zu begehen.

Korrekturverfahren#

Bonferroni-Korrektur#

Das einfachste und bekannteste Verfahren. Du teilst dein Alpha-Niveau durch die Anzahl der Tests:

αkorr=αm\alpha_{\text{korr}} = \frac{\alpha}{m}

Bei 10 Tests und alpha = 0.05 wird der korrigierte Schwellenwert: 0.05/10 = 0.005. Ein Ergebnis gilt nur dann als signifikant, wenn p < 0.005.

Vor- und Nachteile

Vorteile:

  • Einfach zu berechnen und zu erklĂ€ren
  • Funktioniert immer, unabhĂ€ngig von TestabhĂ€ngigkeit
  • Weit verbreitet und allgemein akzeptiert

Nachteile:

  • Sehr konservativ, besonders bei vielen Vergleichen
  • Geringe statistische Power — echte Effekte werden leicht ĂŒbersehen

Holm-Bonferroni (Schritt-fĂŒr-Schritt)#

Eine verbesserte Version der Bonferroni-Korrektur, die weniger konservativ ist, aber die FWER trotzdem kontrolliert.

So funktioniert es:

  1. Sortiere alle p-Werte von klein nach gross
  2. Vergleiche den kleinsten p-Wert mit alpha/m
  3. Wenn signifikant, vergleiche den zweitkleinsten mit alpha/(m-1)
  4. Fahre fort, bis ein p-Wert nicht mehr signifikant ist
  5. Alle verbleibenden p-Werte gelten als nicht signifikant

Beispiel: Holm-Korrektur bei 4 Vergleichen

Vier p-Werte (sortiert): 0.003, 0.012, 0.030, 0.180

Rangp-WertSchwelle (alpha/(m-Rang+1))Signifikant?
10.0030.05/4 = 0.0125Ja
20.0120.05/3 = 0.0167Ja
30.0300.05/2 = 0.025Nein (Stop!)
40.1800.05/1 = 0.05Nein

Ergebnis: Die ersten zwei Vergleiche bleiben signifikant, der dritte nicht (obwohl p = .030 < .05).

Benjamini-Hochberg (FDR-Korrektur)#

Dieser Ansatz kontrolliert nicht die FWER, sondern die False Discovery Rate (FDR) — den erwarteten Anteil falscher Entdeckungen unter allen signifikanten Ergebnissen. Das klingt lockerer, ist aber in vielen Situationen die sinnvollere Strategie.

So funktioniert es:

  1. Sortiere alle p-Werte von klein nach gross
  2. Vergleiche den grössten p-Wert mit alpha
  3. Den zweitgrössten mit alpha × (m-1)/m
  4. Allgemein: p(i) mit alpha × i/m
  5. Der grösste p-Wert, der sein Kriterium erfĂŒllt, und alle kleineren gelten als signifikant

Wann FDR statt FWER?

  • FWER (Bonferroni, Holm): Wenn schon ein einziger falsch-positiver Befund schwerwiegende Konsequenzen hat (z.B. klinische Studien, Genomstudien mit Folgeexperimenten)
  • FDR (Benjamini-Hochberg): Wenn du eine explorative Analyse durchfĂŒhrst und ein gewisser Anteil falscher Entdeckungen akzeptabel ist (z.B. explorative Genexpressionsstudien, Screening-Studien)

Vergleich der Verfahren#

VerfahrenKontrolleKonservativitÀtBeste Anwendung
BonferroniFWERSehr konservativWenige Vergleiche, einfache Darstellung
Holm-BonferroniFWERModerat konservativStandardmethode, fast immer besser als Bonferroni
Benjamini-HochbergFDRLiberalExplorative Analysen, viele Tests
Keine Korrektur——Nur bei einem einzigen, vorab geplanten Test

Wann ist eine Korrektur nötig?#

Nicht jede Situation erfordert eine Alpha-Korrektur. Hier eine Orientierung:

Korrektur empfohlen:

  • Mehrere Post-hoc-Vergleiche nach einer ANOVA
  • Viele Korrelationen in einer Korrelationsmatrix
  • Subgruppenanalysen ohne vorab formulierte Hypothesen

Korrektur eher nicht nötig:

  • Ein einziger vorab geplanter Vergleich (primĂ€rer Endpunkt)
  • Orthogonale Kontraste (die sind unabhĂ€ngig voneinander)
  • Konfirmatorische Studie mit einem primĂ€ren Test

HÀufige MissverstÀndnisse#

  • "Bonferroni ist immer die richtige Wahl." — Holm-Bonferroni kontrolliert die FWER genauso gut, hat aber mehr Power. Es gibt kaum einen Grund, die einfache Bonferroni-Korrektur vorzuziehen.
  • "Ohne Korrektur sind alle meine Ergebnisse ungĂŒltig." — Alpha-Korrektur betrifft die Gesamtfehlerrate. Einzelne Tests mit p = .001 sind auch ohne Korrektur kaum Zufall.
  • "FDR-Korrektur ist unseriös." — Im Gegenteil: FĂŒr explorative Analysen mit vielen Tests ist die FDR-Korrektur oft die methodisch sinnvollere Wahl, weil sie mehr Power behĂ€lt.
  • "Ich teste einfach weniger Hypothesen, dann brauche ich keine Korrektur." — Das ist tatsĂ€chlich eine legitime Strategie. Wenige, vorab geplante Vergleiche reduzieren das Problem.

Praktische Tipps#

  1. Plane vorher: Definiere vor der Datenerhebung, welche Vergleiche du anstellst
  2. Nutze Holm statt Bonferroni: Gleiche FWER-Kontrolle, mehr Power
  3. Berichte transparent: Gib an, wie viele Tests insgesamt durchgefĂŒhrt und welche Korrektur verwendet wurde
  4. Schau auf Effektgrössen: Ein signifikanter p-Wert nach Korrektur sagt nichts ĂŒber die praktische Relevanz

WeiterfĂŒhrende Literatur

  • Benjamini, Y. & Hochberg, Y. (1995). Controlling the false discovery rate: A practical and powerful approach to multiple testing. Journal of the Royal Statistical Society B, 57, 289–300.
  • Holm, S. (1979). A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics, 6, 65–70.
  • Bender, R. & Lange, S. (2001). Adjusting for multiple testing — when and how? Journal of Clinical Epidemiology, 54, 343–349.