Statistisch signifikant — was es wirklich heißt
Der p-Wert ist eines der am meisten missverstandenen Konzepte in der medizinischen Literatur. Eine Klärung in fünf Punkten.
Fast jede Schlagzeile zu einer neuen Studie endet mit „statistisch signifikant“, als sei das ein Gütesiegel. Was die meisten Leser damit verbinden — „der Effekt ist echt“ oder „der Effekt ist groß“ — ist beides falsch. p-Werte messen etwas anderes.
1. Was der p-Wert tatsächlich aussagt
Ein p-Wert ist die Wahrscheinlichkeit, das beobachtete Ergebnis (oder ein extremeres) zu sehen, UNTER DER ANNAHME, dass die Null-Hypothese stimmt. Die Null-Hypothese ist typischerweise: „es gibt keinen Effekt“.
Ein p-Wert von 0,03 heißt also: wenn die Substanz tatsächlich nicht wirken würde, sähen wir das beobachtete Ergebnis (oder ein noch extremeres) in 3% der Fälle rein zufällig. Das ist eine bedingte Wahrscheinlichkeit, kein direktes Maß für „wie wahrscheinlich ist der Effekt echt“.
2. Die Schwelle 0,05 ist eine Konvention
p < 0,05 als „signifikant“ geht auf Ronald Fisher in den 1920ern zurück. Es ist eine willkürliche Konvention, kein Naturgesetz. p = 0,049 und p = 0,051 sind statistisch praktisch identisch — der eine wird gefeiert, der andere ignoriert.
In der hochwertigen Medizin-Statistik wird zunehmend gefordert, p-Werte zusammen mit Effektgrößen und Konfidenzintervallen zu berichten — nicht stattdessen oder als alleinige Aussage.
3. Effektgröße vs. Signifikanz
Eine winzige, klinisch irrelevante Differenz kann statistisch signifikant sein, wenn die Stichprobe groß genug ist. Eine 0,02-Prozentpunkte-Reduktion des HbA1c mit p < 0,001 ist statistisch eindrucksvoll und klinisch belanglos.
Umgekehrt: eine 15%-Reduktion eines klinisch wichtigen Endpunkts kann p = 0,12 sein, weil die Studie zu klein war. „Nicht signifikant“ heißt nicht „kein Effekt“ — es heißt „die Daten sind nicht ausreichend um es sicher zu sagen“.
4. Multiple Tests und p-Hacking
Wenn eine Studie 20 verschiedene Endpunkte testet, ist statistisch zu erwarten, dass einer rein zufällig p < 0,05 erreicht. Das ist kein Beweis für irgendwas — das ist mathematisch garantiert.
p-Hacking nennt man die Praxis, Analysen so anzupassen, bis ein signifikanter p-Wert herauskommt: andere Subgruppen analysieren, andere statistische Tests probieren, einzelne Ausreißer entfernen. Vor-registrierte Studienprotokolle und „intention-to-treat“-Analysen sollen das verhindern.
5. Konfidenzintervalle als bessere Größe
Statt nur „signifikant ja/nein“ gibt das 95%-Konfidenzintervall Effektgröße UND Präzision in einer Zahl. HR 0,80 mit 95% KI 0,72–0,90 ist informativer als „HR 0,80, p < 0,001“:
- Punkt-Schätzer: der wahrscheinlichste Effekt (HR 0,80 = 20% Reduktion).
- Intervall-Breite: wie sicher diese Schätzung ist (0,72–0,90 = recht eng = präzise).
- Ob 1,0 enthalten ist: signalisiert ob der Effekt statistisch signifikant ist (1,0 NICHT enthalten = signifikant).
Ein breites KI bedeutet: viel Unsicherheit. „HR 0,80 mit 95% KI 0,35–1,80“ heißt — der wahre Effekt könnte zwischen einer 65%-Reduktion und einer 80%-Erhöhung liegen. Das ist praktisch keine Information.