Alpha-Korrektur#

Jedes Mal, wenn du einen statistischen Test durchführst, gehst du ein Risiko von 5 % ein, fälschlicherweise ein signifikantes Ergebnis zu finden (bei alpha = 0.05). Das klingt akzeptabel — bei einem einzelnen Test. Aber was passiert, wenn du 10, 20 oder 50 Tests gleichzeitig rechnest? Dann addieren sich diese Risiken, und plötzlich ist die Wahrscheinlichkeit für mindestens einen Fehlalarm erschreckend hoch. Genau hier setzt die Alpha-Korrektur an.

Das Problem der multiplen Vergleiche#

Rechenbeispiel: Alpha-Inflation

Du führst 10 unabhängige Tests mit alpha = 0.05 durch. Die Wahrscheinlichkeit, bei einem einzelnen Test keinen Fehler 1. Art zu begehen, ist 0.95.

Die Wahrscheinlichkeit, bei allen 10 Tests keinen Fehler zu begehen:

P(\text{kein Fehler}) = (1 - 0.05)^{10} = 0.95^{10} = 0.60

Also beträgt die Wahrscheinlichkeit für mindestens einen Fehler 1. Art:

P(\text{mind. 1 Fehler}) = 1 - 0.60 = 0.40

Statt 5 % Fehlerrisiko hast du nun 40 %! Bei 20 Tests wären es sogar 64 %.

Dieses anwachsende Fehlerrisiko heisst familywise error rate (FWER) — die Wahrscheinlichkeit, innerhalb einer Familie von Tests mindestens einen Fehler 1. Art zu begehen.

Korrekturverfahren#

Bonferroni-Korrektur#

Das einfachste und bekannteste Verfahren. Du teilst dein Alpha-Niveau durch die Anzahl der Tests:

\alpha_{\text{korr}} = \frac{\alpha}{m}

Bei 10 Tests und alpha = 0.05 wird der korrigierte Schwellenwert: 0.05/10 = 0.005. Ein Ergebnis gilt nur dann als signifikant, wenn p < 0.005.

Vor- und Nachteile

Vorteile:

Einfach zu berechnen und zu erklären
Funktioniert immer, unabhängig von Testabhängigkeit
Weit verbreitet und allgemein akzeptiert

Nachteile:

Sehr konservativ, besonders bei vielen Vergleichen
Geringe statistische Power — echte Effekte werden leicht übersehen

Holm-Bonferroni (Schritt-für-Schritt)#

Eine verbesserte Version der Bonferroni-Korrektur, die weniger konservativ ist, aber die FWER trotzdem kontrolliert.

So funktioniert es:

Sortiere alle p-Werte von klein nach gross
Vergleiche den kleinsten p-Wert mit alpha/m
Wenn signifikant, vergleiche den zweitkleinsten mit alpha/(m-1)
Fahre fort, bis ein p-Wert nicht mehr signifikant ist
Alle verbleibenden p-Werte gelten als nicht signifikant

Beispiel: Holm-Korrektur bei 4 Vergleichen

Vier p-Werte (sortiert): 0.003, 0.012, 0.030, 0.180

Rang	p-Wert	Schwelle (alpha/(m-Rang+1))	Signifikant?
1	0.003	0.05/4 = 0.0125	Ja
2	0.012	0.05/3 = 0.0167	Ja
3	0.030	0.05/2 = 0.025	Nein (Stop!)
4	0.180	0.05/1 = 0.05	Nein

Ergebnis: Die ersten zwei Vergleiche bleiben signifikant, der dritte nicht (obwohl p = .030 < .05).

Benjamini-Hochberg (FDR-Korrektur)#

Dieser Ansatz kontrolliert nicht die FWER, sondern die False Discovery Rate (FDR) — den erwarteten Anteil falscher Entdeckungen unter allen signifikanten Ergebnissen. Das klingt lockerer, ist aber in vielen Situationen die sinnvollere Strategie.

So funktioniert es:

Sortiere alle p-Werte von klein nach gross
Vergleiche den grössten p-Wert mit alpha
Den zweitgrössten mit alpha × (m-1)/m
Allgemein: p(i) mit alpha × i/m
Der grösste p-Wert, der sein Kriterium erfüllt, und alle kleineren gelten als signifikant

Wann FDR statt FWER?

FWER (Bonferroni, Holm): Wenn schon ein einziger falsch-positiver Befund schwerwiegende Konsequenzen hat (z.B. klinische Studien, Genomstudien mit Folgeexperimenten)
FDR (Benjamini-Hochberg): Wenn du eine explorative Analyse durchführst und ein gewisser Anteil falscher Entdeckungen akzeptabel ist (z.B. explorative Genexpressionsstudien, Screening-Studien)

Vergleich der Verfahren#

Verfahren	Kontrolle	Konservativität	Beste Anwendung
Bonferroni	FWER	Sehr konservativ	Wenige Vergleiche, einfache Darstellung
Holm-Bonferroni	FWER	Moderat konservativ	Standardmethode, fast immer besser als Bonferroni
Benjamini-Hochberg	FDR	Liberal	Explorative Analysen, viele Tests
Keine Korrektur	—	—	Nur bei einem einzigen, vorab geplanten Test

Wann ist eine Korrektur nötig?#

Nicht jede Situation erfordert eine Alpha-Korrektur. Hier eine Orientierung:

Korrektur empfohlen:

Mehrere Post-hoc-Vergleiche nach einer ANOVA
Viele Korrelationen in einer Korrelationsmatrix
Subgruppenanalysen ohne vorab formulierte Hypothesen

Korrektur eher nicht nötig:

Ein einziger vorab geplanter Vergleich (primärer Endpunkt)
Orthogonale Kontraste (die sind unabhängig voneinander)
Konfirmatorische Studie mit einem primären Test

Häufige Missverständnisse#

"Bonferroni ist immer die richtige Wahl." — Holm-Bonferroni kontrolliert die FWER genauso gut, hat aber mehr Power. Es gibt kaum einen Grund, die einfache Bonferroni-Korrektur vorzuziehen.
"Ohne Korrektur sind alle meine Ergebnisse ungültig." — Alpha-Korrektur betrifft die Gesamtfehlerrate. Einzelne Tests mit p = .001 sind auch ohne Korrektur kaum Zufall.
"FDR-Korrektur ist unseriös." — Im Gegenteil: Für explorative Analysen mit vielen Tests ist die FDR-Korrektur oft die methodisch sinnvollere Wahl, weil sie mehr Power behält.
"Ich teste einfach weniger Hypothesen, dann brauche ich keine Korrektur." — Das ist tatsächlich eine legitime Strategie. Wenige, vorab geplante Vergleiche reduzieren das Problem.

Praktische Tipps#

Plane vorher: Definiere vor der Datenerhebung, welche Vergleiche du anstellst
Nutze Holm statt Bonferroni: Gleiche FWER-Kontrolle, mehr Power
Berichte transparent: Gib an, wie viele Tests insgesamt durchgeführt und welche Korrektur verwendet wurde
Schau auf Effektgrössen: Ein signifikanter p-Wert nach Korrektur sagt nichts über die praktische Relevanz

Weiterführende Literatur

Benjamini, Y. & Hochberg, Y. (1995). Controlling the false discovery rate: A practical and powerful approach to multiple testing. Journal of the Royal Statistical Society B, 57, 289–300.
Holm, S. (1979). A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics, 6, 65–70.
Bender, R. & Lange, S. (2001). Adjusting for multiple testing — when and how? Journal of Clinical Epidemiology, 54, 343–349.