"90% statistical power" - was auch immer das heißt. Bei 20.000 Teilnehmern wird es schwieriger, die Nebenbedingungen zu standardisieren. Der Naturforscher würde daraufhin ein Experiment abwandeln, um mit weniger sogar bessere Resultate zu erreichen. Leider geht das in der Medizin meistens nicht. Andererseits leidet man dort unter dem Fluch der hohen Evidenz randomisierter prospektiver Studien. Retrospektiv oder besser beobachtend ("registry") lassen sich mit "Matching" häufig bessere Ergebnisse erreichen, wenn die Nebenbedingungen hinreichend dokumentiert werden (Komorbität, sozialer Status, usw.)
https://de.wikipedia.org/wiki/Matching_(Statistik)
Der p-Wert ist eine schöne Sache für Doktorarbeiten und einfache Versuchsanordnungen. "Die Zeit" hatte kürzlich dazu einen ausführlichen Artikel, den ich hier gekürzt gefunden habe: https://www.zeit.de/2019/14/forschung-ergebnisse-p-wert