Que signifie pour une étude être surchargée?

11

Que signifie pour une étude être surchargée?

Mon impression est que cela signifie que la taille de vos échantillons est si grande que vous avez le pouvoir de détecter de minuscules tailles d'effet. Ces tailles d'effet sont peut-être si petites qu'elles sont plus susceptibles de résulter de légers biais dans le processus d'échantillonnage qu'un lien de causalité (pas nécessairement direct) entre les variables.

Est-ce la bonne intuition? Si c'est le cas, je ne vois pas quel est le problème, tant que les résultats sont interprétés sous cet angle et que vous vérifiez manuellement et voyez si la taille estimée de l'effet est suffisamment grande pour être «significative» ou non.

Suis-je en train de manquer quelque chose? Y a-t-il une meilleure recommandation quant à ce qu'il faut faire dans ce scénario?

Frank Barry
la source
Cela ressemble exactement à ma compréhension intuitive de ce terme.
Henrik

Réponses:

11

Je pense que votre interprétation est incorrecte.

Vous dites que "ces ampleurs d'effet sont peut-être si petites qu'elles résultent plus probablement de légers biais dans le processus d'échantillonnage qu'un lien de causalité (pas nécessairement direct) entre les variables", ce qui semble impliquer que la valeur P dans un "suralimenté" étude n'est pas le même genre de chose qu'une valeur P d'une étude propulsée «correctement». C'est faux. Dans les deux cas, la valeur P est la probabilité d'obtenir des données aussi extrêmes que celles observées, ou plus extrêmes, si l'hypothèse nulle est vraie.

Si vous préférez l'approche Neyman-Pearson, le taux d'erreurs faussement positives obtenues à partir de l'étude `` surpuissante '' est le même que celui d'une étude `` correctement '' alimentée si la même valeur alpha est utilisée pour les deux.

La différence d'interprétation nécessaire est qu'il existe une relation différente entre la signification statistique et la signification scientifique pour les études surchargées. En effet, l'étude surpuissante donnera une grande probabilité d'obtenir une signification même si l'effet est, comme vous le dites, minuscule, et donc d'une importance discutable.

Tant que les résultats d'une étude «surpuissante» sont interprétés de manière appropriée (et que les intervalles de confiance pour la taille de l'effet aident à une telle interprétation), il n'y a pas de problème statistique avec une étude «surpuissante». De ce point de vue, les seuls critères permettant d'étoffer une étude sont les problèmes d'éthique et d'allocation des ressources soulevés dans d'autres réponses.

Michael Lew
la source
Merci, c'est très instructif. Je comprends que la définition de la valeur de p ne change pas. Certes, d'un point de vue statistique, le taux d'erreurs de type I n'augmente pas.
Frank Barry
1
Par définition, nous fixons le taux d'erreur de type I lors de la définition du seuil de valeur p. Cependant, il semble que la différence entre la signification "statistique" et "pratique" soit la question ici. Lorsque la taille de l'échantillon est capable de détecter des différences beaucoup plus fines que la taille d'effet attendue, une différence qui est correctement statistiquement distincte n'est pas pratiquement significative (et du point de vue de "l'utilisateur final", il s'agit en fait d'un "faux positif" même si ce n'est pas statistique). Cependant, comme vous le dites, cela commence à sortir du domaine des statistiques.
Frank Barry
1
c'est-à-dire que je pense que je suis d'accord - "la différence d'interprétation qui est nécessaire est qu'il existe une relation différente entre la signification statistique et la signification scientifique"
Frank Barry
4

Dans la recherche médicale, les essais peuvent être contraires à l'éthique s'ils recrutent trop de patients. Par exemple, si l'objectif est de décider quel traitement est le mieux, il n'est plus éthique de traiter les patients avec le pire traitement après qu'il a été établi qu'il était inférieur. L'augmentation de la taille de l'échantillon vous donnerait, bien sûr, une estimation plus précise de la taille de l'effet, mais vous devrez peut-être vous arrêter bien avant que les effets de facteurs tels que "de légers biais dans le processus d'échantillonnage" n'apparaissent.

Il peut également être contraire à l'éthique de dépenser l'argent public pour des recherches suffisamment confirmées.

GaBorgulya
la source
1

Tout ce que vous avez dit a du sens (même si je ne sais pas de quoi vous parlez), et moi en particulier. comme votre point sur la taille des effets par opposition à la signification statistique. Une autre considération est que certaines études nécessitent l'allocation de ressources rares pour obtenir la participation de chaque cas, et donc on ne voudrait pas en faire trop.

rolando2
la source
Désolé, "gros problème" est trop un commentaire éditorial. La question de savoir si c'est une "affaire plus importante" que je ne le prétends est essentiellement une question de savoir s'il y a des considérations supplémentaires dont je peux être ignorant.
Frank Barry
0

Mon expérience provient d'expériences A / B en ligne, où le problème concerne généralement des études insuffisantes ou la mesure de mauvaises choses. Mais il me semble qu'une étude surpuissante produit des intervalles de confiance plus étroits que des études comparables, des valeurs de p plus faibles et éventuellement une variance différente. J'imagine que cela peut rendre plus difficile la comparaison d'études similaires. Par exemple, si je répétais une étude surpuissante en utilisant la puissance appropriée, ma valeur p serait plus élevée même si je reproduisais exactement l'effet. L'augmentation de la taille de l'échantillon peut égaliser la variabilité ou introduire de la variabilité s'il y a des valeurs aberrantes qui pourraient avoir une plus grande chance d'apparaître dans un échantillon plus grand.

De plus, mes simulations montrent que des effets autres que ceux qui vous intéressent peuvent devenir significatifs avec un plus grand échantillon. Ainsi, bien que la valeur de p vous indique correctement la probabilité que vos résultats soient réels, ils pourraient être réels pour des raisons autres que ce que vous pensez, par exemple, une combinaison de hasard, un effet transitoire que vous ne contrôliez pas, et peut-être un autre effet plus petit que vous avez introduit sans vous en rendre compte. Si l'étude est juste un peu trop puissante, le risque est faible. Le problème est souvent qu'il est difficile de connaître la puissance adéquate, par exemple, si les mesures de base et l'effet cible minimum sont des suppositions ou s'avèrent différents de ceux attendus.

J'ai également rencontré un article qui soutient qu'un échantillon trop grand peut rendre un test d'ajustement trop sensible aux écarts sans conséquence, conduisant à des résultats potentiellement contre-intuitifs.

Cela dit, je pense qu'il vaut mieux se tromper du côté de la puissance élevée plutôt que faible.

Vlad
la source