Que signifie pour une étude être surchargée?
Mon impression est que cela signifie que la taille de vos échantillons est si grande que vous avez le pouvoir de détecter de minuscules tailles d'effet. Ces tailles d'effet sont peut-être si petites qu'elles sont plus susceptibles de résulter de légers biais dans le processus d'échantillonnage qu'un lien de causalité (pas nécessairement direct) entre les variables.
Est-ce la bonne intuition? Si c'est le cas, je ne vois pas quel est le problème, tant que les résultats sont interprétés sous cet angle et que vous vérifiez manuellement et voyez si la taille estimée de l'effet est suffisamment grande pour être «significative» ou non.
Suis-je en train de manquer quelque chose? Y a-t-il une meilleure recommandation quant à ce qu'il faut faire dans ce scénario?
Réponses:
Je pense que votre interprétation est incorrecte.
Vous dites que "ces ampleurs d'effet sont peut-être si petites qu'elles résultent plus probablement de légers biais dans le processus d'échantillonnage qu'un lien de causalité (pas nécessairement direct) entre les variables", ce qui semble impliquer que la valeur P dans un "suralimenté" étude n'est pas le même genre de chose qu'une valeur P d'une étude propulsée «correctement». C'est faux. Dans les deux cas, la valeur P est la probabilité d'obtenir des données aussi extrêmes que celles observées, ou plus extrêmes, si l'hypothèse nulle est vraie.
Si vous préférez l'approche Neyman-Pearson, le taux d'erreurs faussement positives obtenues à partir de l'étude `` surpuissante '' est le même que celui d'une étude `` correctement '' alimentée si la même valeur alpha est utilisée pour les deux.
La différence d'interprétation nécessaire est qu'il existe une relation différente entre la signification statistique et la signification scientifique pour les études surchargées. En effet, l'étude surpuissante donnera une grande probabilité d'obtenir une signification même si l'effet est, comme vous le dites, minuscule, et donc d'une importance discutable.
Tant que les résultats d'une étude «surpuissante» sont interprétés de manière appropriée (et que les intervalles de confiance pour la taille de l'effet aident à une telle interprétation), il n'y a pas de problème statistique avec une étude «surpuissante». De ce point de vue, les seuls critères permettant d'étoffer une étude sont les problèmes d'éthique et d'allocation des ressources soulevés dans d'autres réponses.
la source
Dans la recherche médicale, les essais peuvent être contraires à l'éthique s'ils recrutent trop de patients. Par exemple, si l'objectif est de décider quel traitement est le mieux, il n'est plus éthique de traiter les patients avec le pire traitement après qu'il a été établi qu'il était inférieur. L'augmentation de la taille de l'échantillon vous donnerait, bien sûr, une estimation plus précise de la taille de l'effet, mais vous devrez peut-être vous arrêter bien avant que les effets de facteurs tels que "de légers biais dans le processus d'échantillonnage" n'apparaissent.
Il peut également être contraire à l'éthique de dépenser l'argent public pour des recherches suffisamment confirmées.
la source
Tout ce que vous avez dit a du sens (même si je ne sais pas de quoi vous parlez), et moi en particulier. comme votre point sur la taille des effets par opposition à la signification statistique. Une autre considération est que certaines études nécessitent l'allocation de ressources rares pour obtenir la participation de chaque cas, et donc on ne voudrait pas en faire trop.
la source
Mon expérience provient d'expériences A / B en ligne, où le problème concerne généralement des études insuffisantes ou la mesure de mauvaises choses. Mais il me semble qu'une étude surpuissante produit des intervalles de confiance plus étroits que des études comparables, des valeurs de p plus faibles et éventuellement une variance différente. J'imagine que cela peut rendre plus difficile la comparaison d'études similaires. Par exemple, si je répétais une étude surpuissante en utilisant la puissance appropriée, ma valeur p serait plus élevée même si je reproduisais exactement l'effet. L'augmentation de la taille de l'échantillon peut égaliser la variabilité ou introduire de la variabilité s'il y a des valeurs aberrantes qui pourraient avoir une plus grande chance d'apparaître dans un échantillon plus grand.
De plus, mes simulations montrent que des effets autres que ceux qui vous intéressent peuvent devenir significatifs avec un plus grand échantillon. Ainsi, bien que la valeur de p vous indique correctement la probabilité que vos résultats soient réels, ils pourraient être réels pour des raisons autres que ce que vous pensez, par exemple, une combinaison de hasard, un effet transitoire que vous ne contrôliez pas, et peut-être un autre effet plus petit que vous avez introduit sans vous en rendre compte. Si l'étude est juste un peu trop puissante, le risque est faible. Le problème est souvent qu'il est difficile de connaître la puissance adéquate, par exemple, si les mesures de base et l'effet cible minimum sont des suppositions ou s'avèrent différents de ceux attendus.
J'ai également rencontré un article qui soutient qu'un échantillon trop grand peut rendre un test d'ajustement trop sensible aux écarts sans conséquence, conduisant à des résultats potentiellement contre-intuitifs.
Cela dit, je pense qu'il vaut mieux se tromper du côté de la puissance élevée plutôt que faible.
la source