Statistische Power#
Die statistische Power (Teststärke) ist die Wahrscheinlichkeit, einen tatsächlich vorhandenen Effekt als statistisch signifikant zu erkennen. Sie ist das Gegenstück zum Typ-II-Fehler (β-Fehler).
Die zwei Fehlertypen#
| H₀ ist wahr (kein Effekt) | H₀ ist falsch (Effekt vorhanden) | |
|---|---|---|
| H₀ ablehnen | Typ-I-Fehler (α) | Korrekte Entscheidung (Power) |
| H₀ beibehalten | Korrekte Entscheidung | Typ-II-Fehler (β) |
- Typ-I-Fehler (α): Einen Effekt finden, der nicht existiert (falsch positiv)
- Typ-II-Fehler (β): Einen Effekt übersehen, der tatsächlich existiert (falsch negativ)
- Power (1 - β): Einen echten Effekt korrekt erkennen
Wovon hängt die Power ab?#
Vier Faktoren bestimmen die Power eines Tests. Kennt man drei davon, lässt sich der vierte berechnen:
1. Effektstärke#
Je größer der tatsächliche Effekt, desto leichter ist er zu entdecken.
2. Stichprobengröße (n)#
Größere Stichproben liefern mehr Power. Dies ist der Faktor, den Forschende am ehesten beeinflussen können.
3. Signifikanzniveau (α)#
Ein strengeres α (z. B. 0,01 statt 0,05) verringert die Power, da die Nachweisschwelle höher liegt.
4. Streuung in den Daten#
Geringere Variabilität in den Daten erhöht die Power, da Effekte leichter aus dem Rauschen herausstechen.
Zusammenspiel der Faktoren
Ein Forscher plant einen t-Test und möchte eine Power von 0,80 erreichen (α = 0,05, zweiseitig):
- Bei einem großen Effekt (d = 0,8): n ≈ 26 pro Gruppe
- Bei einem mittleren Effekt (d = 0,5): n ≈ 64 pro Gruppe
- Bei einem kleinen Effekt (d = 0,2): n ≈ 394 pro Gruppe
Je kleiner der erwartete Effekt, desto mehr Teilnehmende werden benötigt.
A-priori-Poweranalyse#
Die a-priori-Poweranalyse wird vor der Datenerhebung durchgeführt, um die erforderliche Stichprobengröße zu bestimmen.
Benötigte Angaben:
- Gewünschte Power (üblicherweise 0,80 oder 0,90)
- Signifikanzniveau (üblicherweise α = 0,05)
- Erwartete Effektstärke (aus Pilotstudien, Literatur oder theoretischen Überlegungen)
- Art des statistischen Tests
Beispiel: Poweranalyse für eine ANOVA
Ein Psychologe möchte drei Therapieformen vergleichen (einfaktorielle ANOVA). Er erwartet einen mittleren Effekt (f = 0,25) und möchte eine Power von 0,80 bei α = 0,05 erreichen.
Ergebnis der Poweranalyse: n ≈ 53 pro Gruppe, also insgesamt 159 Teilnehmende.
Post-hoc-Poweranalyse#
Die post-hoc-Poweranalyse wird nach der Datenerhebung durchgeführt. Sie berechnet die Power, die die Studie tatsächlich hatte.
Achtung: Post-hoc-Poweranalysen auf Basis des beobachteten Effekts sind methodisch umstritten. Die beobachtete Power ist eine direkte Funktion des p-Werts und liefert keine zusätzliche Information. Sie sollte nur mit a-priori festgelegten Effektstärken durchgeführt werden.
Konventionen für die Power#
| Power | Bewertung |
|---|---|
| < 0,50 | Unzureichend |
| 0,50 – 0,79 | Mäßig |
| 0,80 | Empfohlenes Minimum |
| 0,90 | Gut |
| 0,95 | Sehr gut |
Die Konvention von Power = 0,80 bedeutet: Es wird akzeptiert, dass man in 20 % der Fälle einen tatsächlich vorhandenen Effekt übersieht.
Power und Studiendesign#
Die Power lässt sich durch verschiedene Maßnahmen erhöhen:
- Stichprobengröße erhöhen — Der direkteste Weg
- Innersubjekt-Design verwenden — Gepaarte Tests haben mehr Power als ungepaarte
- Varianz reduzieren — Durch standardisierte Bedingungen oder Kovariaten
- Größeres α wählen — Allerdings auf Kosten der Typ-I-Fehlerrate
- Einseitigen Test verwenden — Nur bei begründeter Richtungshypothese
- Zuverlässigere Messinstrumente — Weniger Messfehler = weniger Rauschen
Häufige Missverständnisse#
„Meine Studie war nicht signifikant, also gibt es keinen Effekt." Ohne ausreichende Power kann eine Studie echte Effekte nicht erkennen. Eine Poweranalyse zeigt, ob die Studie überhaupt in der Lage war, den Effekt zu finden.
„80 % Power ist immer ausreichend." In manchen Kontexten (z. B. klinische Studien) sind 90 % oder mehr angemessen. Die Wahl hängt von den Konsequenzen eines übersehenen Effekts ab.
„Die Poweranalyse kann nach der Studie gemacht werden." Idealerweise wird die Poweranalyse vor der Studie durchgeführt. Eine nachträgliche Analyse mit dem beobachteten Effekt ist zirkulär und wenig aussagekräftig.
Weiterführende Literatur
- Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2. Aufl.). Lawrence Erlbaum Associates.
- Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5. Aufl.). SAGE.