Alpha-Korrektur#
Jedes Mal, wenn du einen statistischen Test durchfĂŒhrst, gehst du ein Risiko von 5 % ein, fĂ€lschlicherweise ein signifikantes Ergebnis zu finden (bei alpha = 0.05). Das klingt akzeptabel â bei einem einzelnen Test. Aber was passiert, wenn du 10, 20 oder 50 Tests gleichzeitig rechnest? Dann addieren sich diese Risiken, und plötzlich ist die Wahrscheinlichkeit fĂŒr mindestens einen Fehlalarm erschreckend hoch. Genau hier setzt die Alpha-Korrektur an.
Das Problem der multiplen Vergleiche#
Rechenbeispiel: Alpha-Inflation
Du fĂŒhrst 10 unabhĂ€ngige Tests mit alpha = 0.05 durch. Die Wahrscheinlichkeit, bei einem einzelnen Test keinen Fehler 1. Art zu begehen, ist 0.95.
Die Wahrscheinlichkeit, bei allen 10 Tests keinen Fehler zu begehen:
Also betrĂ€gt die Wahrscheinlichkeit fĂŒr mindestens einen Fehler 1. Art:
Statt 5 % Fehlerrisiko hast du nun 40 %! Bei 20 Tests wÀren es sogar 64 %.
Dieses anwachsende Fehlerrisiko heisst familywise error rate (FWER) â die Wahrscheinlichkeit, innerhalb einer Familie von Tests mindestens einen Fehler 1. Art zu begehen.
Korrekturverfahren#
Bonferroni-Korrektur#
Das einfachste und bekannteste Verfahren. Du teilst dein Alpha-Niveau durch die Anzahl der Tests:
Bei 10 Tests und alpha = 0.05 wird der korrigierte Schwellenwert: 0.05/10 = 0.005. Ein Ergebnis gilt nur dann als signifikant, wenn p < 0.005.
Vor- und Nachteile
Vorteile:
- Einfach zu berechnen und zu erklÀren
- Funktioniert immer, unabhÀngig von TestabhÀngigkeit
- Weit verbreitet und allgemein akzeptiert
Nachteile:
- Sehr konservativ, besonders bei vielen Vergleichen
- Geringe statistische Power â echte Effekte werden leicht ĂŒbersehen
Holm-Bonferroni (Schritt-fĂŒr-Schritt)#
Eine verbesserte Version der Bonferroni-Korrektur, die weniger konservativ ist, aber die FWER trotzdem kontrolliert.
So funktioniert es:
- Sortiere alle p-Werte von klein nach gross
- Vergleiche den kleinsten p-Wert mit alpha/m
- Wenn signifikant, vergleiche den zweitkleinsten mit alpha/(m-1)
- Fahre fort, bis ein p-Wert nicht mehr signifikant ist
- Alle verbleibenden p-Werte gelten als nicht signifikant
Beispiel: Holm-Korrektur bei 4 Vergleichen
Vier p-Werte (sortiert): 0.003, 0.012, 0.030, 0.180
| Rang | p-Wert | Schwelle (alpha/(m-Rang+1)) | Signifikant? |
|---|---|---|---|
| 1 | 0.003 | 0.05/4 = 0.0125 | Ja |
| 2 | 0.012 | 0.05/3 = 0.0167 | Ja |
| 3 | 0.030 | 0.05/2 = 0.025 | Nein (Stop!) |
| 4 | 0.180 | 0.05/1 = 0.05 | Nein |
Ergebnis: Die ersten zwei Vergleiche bleiben signifikant, der dritte nicht (obwohl p = .030 < .05).
Benjamini-Hochberg (FDR-Korrektur)#
Dieser Ansatz kontrolliert nicht die FWER, sondern die False Discovery Rate (FDR) â den erwarteten Anteil falscher Entdeckungen unter allen signifikanten Ergebnissen. Das klingt lockerer, ist aber in vielen Situationen die sinnvollere Strategie.
So funktioniert es:
- Sortiere alle p-Werte von klein nach gross
- Vergleiche den grössten p-Wert mit alpha
- Den zweitgrössten mit alpha à (m-1)/m
- Allgemein: p(i) mit alpha Ă i/m
- Der grösste p-Wert, der sein Kriterium erfĂŒllt, und alle kleineren gelten als signifikant
Wann FDR statt FWER?
- FWER (Bonferroni, Holm): Wenn schon ein einziger falsch-positiver Befund schwerwiegende Konsequenzen hat (z.B. klinische Studien, Genomstudien mit Folgeexperimenten)
- FDR (Benjamini-Hochberg): Wenn du eine explorative Analyse durchfĂŒhrst und ein gewisser Anteil falscher Entdeckungen akzeptabel ist (z.B. explorative Genexpressionsstudien, Screening-Studien)
Vergleich der Verfahren#
| Verfahren | Kontrolle | KonservativitÀt | Beste Anwendung |
|---|---|---|---|
| Bonferroni | FWER | Sehr konservativ | Wenige Vergleiche, einfache Darstellung |
| Holm-Bonferroni | FWER | Moderat konservativ | Standardmethode, fast immer besser als Bonferroni |
| Benjamini-Hochberg | FDR | Liberal | Explorative Analysen, viele Tests |
| Keine Korrektur | â | â | Nur bei einem einzigen, vorab geplanten Test |
Wann ist eine Korrektur nötig?#
Nicht jede Situation erfordert eine Alpha-Korrektur. Hier eine Orientierung:
Korrektur empfohlen:
- Mehrere Post-hoc-Vergleiche nach einer ANOVA
- Viele Korrelationen in einer Korrelationsmatrix
- Subgruppenanalysen ohne vorab formulierte Hypothesen
Korrektur eher nicht nötig:
- Ein einziger vorab geplanter Vergleich (primÀrer Endpunkt)
- Orthogonale Kontraste (die sind unabhÀngig voneinander)
- Konfirmatorische Studie mit einem primÀren Test
HÀufige MissverstÀndnisse#
- "Bonferroni ist immer die richtige Wahl." â Holm-Bonferroni kontrolliert die FWER genauso gut, hat aber mehr Power. Es gibt kaum einen Grund, die einfache Bonferroni-Korrektur vorzuziehen.
- "Ohne Korrektur sind alle meine Ergebnisse ungĂŒltig." â Alpha-Korrektur betrifft die Gesamtfehlerrate. Einzelne Tests mit p = .001 sind auch ohne Korrektur kaum Zufall.
- "FDR-Korrektur ist unseriös." â Im Gegenteil: FĂŒr explorative Analysen mit vielen Tests ist die FDR-Korrektur oft die methodisch sinnvollere Wahl, weil sie mehr Power behĂ€lt.
- "Ich teste einfach weniger Hypothesen, dann brauche ich keine Korrektur." â Das ist tatsĂ€chlich eine legitime Strategie. Wenige, vorab geplante Vergleiche reduzieren das Problem.
Praktische Tipps#
- Plane vorher: Definiere vor der Datenerhebung, welche Vergleiche du anstellst
- Nutze Holm statt Bonferroni: Gleiche FWER-Kontrolle, mehr Power
- Berichte transparent: Gib an, wie viele Tests insgesamt durchgefĂŒhrt und welche Korrektur verwendet wurde
- Schau auf Effektgrössen: Ein signifikanter p-Wert nach Korrektur sagt nichts ĂŒber die praktische Relevanz
WeiterfĂŒhrende Literatur
- Benjamini, Y. & Hochberg, Y. (1995). Controlling the false discovery rate: A practical and powerful approach to multiple testing. Journal of the Royal Statistical Society B, 57, 289â300.
- Holm, S. (1979). A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics, 6, 65â70.
- Bender, R. & Lange, S. (2001). Adjusting for multiple testing â when and how? Journal of Clinical Epidemiology, 54, 343â349.