Statistische Power#

Die statistische Power (Teststärke) ist die Wahrscheinlichkeit, einen tatsächlich vorhandenen Effekt als statistisch signifikant zu erkennen. Sie ist das Gegenstück zum Typ-II-Fehler (β-Fehler).

\text{Power} = 1 - \beta

Die zwei Fehlertypen#

	H₀ ist wahr (kein Effekt)	H₀ ist falsch (Effekt vorhanden)
H₀ ablehnen	Typ-I-Fehler (α)	Korrekte Entscheidung (Power)
H₀ beibehalten	Korrekte Entscheidung	Typ-II-Fehler (β)

Typ-I-Fehler (α): Einen Effekt finden, der nicht existiert (falsch positiv)
Typ-II-Fehler (β): Einen Effekt übersehen, der tatsächlich existiert (falsch negativ)
Power (1 - β): Einen echten Effekt korrekt erkennen

Wovon hängt die Power ab?#

Vier Faktoren bestimmen die Power eines Tests. Kennt man drei davon, lässt sich der vierte berechnen:

1. Effektstärke#

Je größer der tatsächliche Effekt, desto leichter ist er zu entdecken.

2. Stichprobengröße (n)#

Größere Stichproben liefern mehr Power. Dies ist der Faktor, den Forschende am ehesten beeinflussen können.

3. Signifikanzniveau (α)#

Ein strengeres α (z. B. 0,01 statt 0,05) verringert die Power, da die Nachweisschwelle höher liegt.

4. Streuung in den Daten#

Geringere Variabilität in den Daten erhöht die Power, da Effekte leichter aus dem Rauschen herausstechen.

Zusammenspiel der Faktoren

Ein Forscher plant einen t-Test und möchte eine Power von 0,80 erreichen (α = 0,05, zweiseitig):

Bei einem großen Effekt (d = 0,8): n ≈ 26 pro Gruppe
Bei einem mittleren Effekt (d = 0,5): n ≈ 64 pro Gruppe
Bei einem kleinen Effekt (d = 0,2): n ≈ 394 pro Gruppe

Je kleiner der erwartete Effekt, desto mehr Teilnehmende werden benötigt.

A-priori-Poweranalyse#

Die a-priori-Poweranalyse wird vor der Datenerhebung durchgeführt, um die erforderliche Stichprobengröße zu bestimmen.

Benötigte Angaben:

Gewünschte Power (üblicherweise 0,80 oder 0,90)
Signifikanzniveau (üblicherweise α = 0,05)
Erwartete Effektstärke (aus Pilotstudien, Literatur oder theoretischen Überlegungen)
Art des statistischen Tests

Beispiel: Poweranalyse für eine ANOVA

Ein Psychologe möchte drei Therapieformen vergleichen (einfaktorielle ANOVA). Er erwartet einen mittleren Effekt (f = 0,25) und möchte eine Power von 0,80 bei α = 0,05 erreichen.

Ergebnis der Poweranalyse: n ≈ 53 pro Gruppe, also insgesamt 159 Teilnehmende.

Post-hoc-Poweranalyse#

Die post-hoc-Poweranalyse wird nach der Datenerhebung durchgeführt. Sie berechnet die Power, die die Studie tatsächlich hatte.

Achtung: Post-hoc-Poweranalysen auf Basis des beobachteten Effekts sind methodisch umstritten. Die beobachtete Power ist eine direkte Funktion des p-Werts und liefert keine zusätzliche Information. Sie sollte nur mit a-priori festgelegten Effektstärken durchgeführt werden.

Konventionen für die Power#

Power	Bewertung
< 0,50	Unzureichend
0,50 – 0,79	Mäßig
0,80	Empfohlenes Minimum
0,90	Gut
0,95	Sehr gut

Die Konvention von Power = 0,80 bedeutet: Es wird akzeptiert, dass man in 20 % der Fälle einen tatsächlich vorhandenen Effekt übersieht.

Power und Studiendesign#

Die Power lässt sich durch verschiedene Maßnahmen erhöhen:

Stichprobengröße erhöhen — Der direkteste Weg
Innersubjekt-Design verwenden — Gepaarte Tests haben mehr Power als ungepaarte
Varianz reduzieren — Durch standardisierte Bedingungen oder Kovariaten
Größeres α wählen — Allerdings auf Kosten der Typ-I-Fehlerrate
Einseitigen Test verwenden — Nur bei begründeter Richtungshypothese
Zuverlässigere Messinstrumente — Weniger Messfehler = weniger Rauschen

Häufige Missverständnisse#

„Meine Studie war nicht signifikant, also gibt es keinen Effekt." Ohne ausreichende Power kann eine Studie echte Effekte nicht erkennen. Eine Poweranalyse zeigt, ob die Studie überhaupt in der Lage war, den Effekt zu finden.

„80 % Power ist immer ausreichend." In manchen Kontexten (z. B. klinische Studien) sind 90 % oder mehr angemessen. Die Wahl hängt von den Konsequenzen eines übersehenen Effekts ab.

„Die Poweranalyse kann nach der Studie gemacht werden." Idealerweise wird die Poweranalyse vor der Studie durchgeführt. Eine nachträgliche Analyse mit dem beobachteten Effekt ist zirkulär und wenig aussagekräftig.

Weiterführende Literatur

Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2. Aufl.). Lawrence Erlbaum Associates.
Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5. Aufl.). SAGE.