Primer · Statistik7 Min. Lesezeit

Statistisch signifikant — was es wirklich heißt

Der p-Wert ist eines der am meisten missverstandenen Konzepte in der medizinischen Literatur. Eine Klärung in fünf Punkten.

Veröffentlicht: 2026-05-21

Fast jede Schlagzeile zu einer neuen Studie endet mit „statistisch signifikant“, als sei das ein Gütesiegel. Was die meisten Leser damit verbinden — „der Effekt ist echt“ oder „der Effekt ist groß“ — ist beides falsch. p-Werte messen etwas anderes.

1. Was der p-Wert tatsächlich aussagt

Ein p-Wert ist die Wahrscheinlichkeit, das beobachtete Ergebnis (oder ein extremeres) zu sehen, UNTER DER ANNAHME, dass die Null-Hypothese stimmt. Die Null-Hypothese ist typischerweise: „es gibt keinen Effekt“.

Ein p-Wert von 0,03 heißt also: wenn die Substanz tatsächlich nicht wirken würde, sähen wir das beobachtete Ergebnis (oder ein noch extremeres) in 3% der Fälle rein zufällig. Das ist eine bedingte Wahrscheinlichkeit, kein direktes Maß für „wie wahrscheinlich ist der Effekt echt“.

Was der p-Wert NICHT ist

Der p-Wert ist NICHT die Wahrscheinlichkeit, dass die Null-Hypothese stimmt. Er ist NICHT die Wahrscheinlichkeit, dass deine Hypothese richtig ist. Er ist NICHT die Effektgröße. Er ist NICHT die Reproduzierbarkeit.

2. Die Schwelle 0,05 ist eine Konvention

p < 0,05 als „signifikant“ geht auf Ronald Fisher in den 1920ern zurück. Es ist eine willkürliche Konvention, kein Naturgesetz. p = 0,049 und p = 0,051 sind statistisch praktisch identisch — der eine wird gefeiert, der andere ignoriert.

In der hochwertigen Medizin-Statistik wird zunehmend gefordert, p-Werte zusammen mit Effektgrößen und Konfidenzintervallen zu berichten — nicht stattdessen oder als alleinige Aussage.

3. Effektgröße vs. Signifikanz

Eine winzige, klinisch irrelevante Differenz kann statistisch signifikant sein, wenn die Stichprobe groß genug ist. Eine 0,02-Prozentpunkte-Reduktion des HbA1c mit p < 0,001 ist statistisch eindrucksvoll und klinisch belanglos.

Umgekehrt: eine 15%-Reduktion eines klinisch wichtigen Endpunkts kann p = 0,12 sein, weil die Studie zu klein war. „Nicht signifikant“ heißt nicht „kein Effekt“ — es heißt „die Daten sind nicht ausreichend um es sicher zu sagen“.

4. Multiple Tests und p-Hacking

Wenn eine Studie 20 verschiedene Endpunkte testet, ist statistisch zu erwarten, dass einer rein zufällig p < 0,05 erreicht. Das ist kein Beweis für irgendwas — das ist mathematisch garantiert.

p-Hacking nennt man die Praxis, Analysen so anzupassen, bis ein signifikanter p-Wert herauskommt: andere Subgruppen analysieren, andere statistische Tests probieren, einzelne Ausreißer entfernen. Vor-registrierte Studienprotokolle und „intention-to-treat“-Analysen sollen das verhindern.

5. Konfidenzintervalle als bessere Größe

Statt nur „signifikant ja/nein“ gibt das 95%-Konfidenzintervall Effektgröße UND Präzision in einer Zahl. HR 0,80 mit 95% KI 0,72–0,90 ist informativer als „HR 0,80, p < 0,001“:

Punkt-Schätzer: der wahrscheinlichste Effekt (HR 0,80 = 20% Reduktion).
Intervall-Breite: wie sicher diese Schätzung ist (0,72–0,90 = recht eng = präzise).
Ob 1,0 enthalten ist: signalisiert ob der Effekt statistisch signifikant ist (1,0 NICHT enthalten = signifikant).

Ein breites KI bedeutet: viel Unsicherheit. „HR 0,80 mit 95% KI 0,35–1,80“ heißt — der wahre Effekt könnte zwischen einer 65%-Reduktion und einer 80%-Erhöhung liegen. Das ist praktisch keine Information.

Was du als Leser tun kannst

Wenn ein Artikel nur p-Werte berichtet, ohne Effektgrößen und KIs zu zeigen — sei skeptisch. Eine seriöse Studie nennt beides. Und wenn jemand „X ist signifikant“ sagt, lohnt die Rückfrage: signifikant wie groß?

Weiterführend

Verwandte Peptide

Semaglutid

Häufige Fragen

Was sagt "p < 0,05" wirklich aus?Was sagt ein Konfidenzintervall (95% KI) aus?Was ist der Unterschied zwischen statistischer Signifikanz u…