L'analyse de puissance a priori est-elle essentiellement inutile?

23

J'ai assisté à une réunion de la Society for Personality and Social Psychology la semaine dernière où j'ai vu un discours d'Uri Simonsohn avec la prémisse que l'utilisation d'une analyse de puissance a priori pour déterminer la taille de l'échantillon était essentiellement inutile parce que ses résultats sont si sensibles aux hypothèses.

Bien sûr, cette affirmation va à l'encontre de ce qui m'a été enseigné dans mon cours de méthodes et des recommandations de nombreux éminents méthodologistes (notamment Cohen, 1992 ), donc Uri a présenté des preuves concernant cette affirmation. J'ai tenté de recréer certaines de ces preuves ci-dessous.

Pour simplifier, imaginons une situation où vous avez deux groupes d'observations et supposez que la taille de l'effet (mesurée par la différence moyenne normalisée) est de . Un calcul de puissance standard (effectué en utilisant le package ci-dessous) vous indiquera que vous aurez besoin de 128 observations pour obtenir une puissance de 80% avec cette conception..5Rpwr128

require(pwr)

size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size, 
           sig.level = .05, 
           power = .80, 
           type = "two.sample", 
           alternative = "two.sided")

Habituellement, cependant, nos suppositions sur la taille prévue de l'effet sont (au moins dans les sciences sociales, qui est mon domaine d'étude) juste cela - des suppositions très approximatives. Que se passe-t-il alors si notre estimation de la taille de l'effet est un peu déformée? Un calcul rapide de la puissance vous indique que si la taille de l'effet est de .4 au lieu de .5 , vous avez besoin de 200 observations - 1.56 fois le nombre dont vous auriez besoin pour avoir une puissance adéquate pour une taille d'effet de .5 . De même, si la taille de l'effet est de .6 , vous n'avez besoin que de 90 observations, 70% de ce dont vous auriez besoin pour avoir une puissance suffisante pour détecter une taille d'effet de .50. Pratiquement parlant, la plage des observations estimées est assez large - à 200 .90200

Une réponse à ce problème est qu'au lieu de faire une pure supposition quant à la taille de l'effet, vous collectez des preuves de la taille de l'effet, soit par le biais de la littérature antérieure, soit par des tests pilotes. Bien sûr, si vous faites des tests pilotes, vous voudriez que votre test pilote soit suffisamment petit pour que vous n'exécutiez pas simplement une version de votre étude juste pour déterminer la taille de l'échantillon nécessaire pour exécuter l'étude (c.-à-d., Vous voulez que la taille de l'échantillon utilisé dans le test pilote soit plus petite que la taille de l'échantillon de votre étude).

Uri Simonsohn a fait valoir que les tests pilotes dans le but de déterminer la taille de l'effet utilisé dans votre analyse de puissance sont inutiles. Considérez la simulation suivante que j'ai exécutée R. Cette simulation suppose que la taille de l'effet de la population est de . Il effectue ensuite 1000 "tests pilotes" de taille 40 et tabule le N recommandé pour chacun des 10000 tests pilotes..51000N

set.seed(12415)

reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)

for(i in 1:reps)
{
  x <- rep(c(-.5, .5), pilot_n_per_group)
  y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
  # Calculate the standardized mean difference
  size <- (mean(y[x == -.5]) - mean(y[x == .5])) / 
          sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)

  n <- 2 * pwr.t.test(d = size,
                      sig.level = .05, 
                      power = .80,
                      type = "two.sample", 
                      alternative = "two.sided")$n

  ns[i] <- n
}

Vous trouverez ci-dessous un tracé de densité basé sur cette simulation. J'ai omis des tests pilotes qui recommandaient un certain nombre d'observations au-dessus de 500 pour rendre l'image plus interprétable. Mêmeconcentrant sur les résultats moins extrêmes de de la simulation, il est énorme variation de la N s recommandée par les 1000 tests pilotes.204500Ns1000

entrez la description de l'image ici

Bien sûr, je suis sûr que le problème de sensibilité aux hypothèses ne fait qu'empirer à mesure que la conception devient plus compliquée. Par exemple, dans une conception nécessitant la spécification d'une structure à effets aléatoires, la nature de la structure à effets aléatoires aura des implications dramatiques sur la puissance de la conception.

Alors, que pensez-vous tous de cet argument? L'analyse de puissance a priori est-elle essentiellement inutile? Si tel est le cas, comment les chercheurs devraient-ils planifier la taille de leurs études?

Patrick S. Forscher
la source
10
Cela ressemble à une condamnation de l' analyse de puissance insensée , pas de l'analyse de puissance elle-même. La plus grande question est de savoir s'il s'agit d'une attaque contre un homme de paille ou s'il y a effectivement beaucoup de gens qui effectuent leurs analyses de puissance (ou toute autre analyse) sans tenir compte de leur sensibilité aux hypothèses. Si ce dernier est vrai, il est bon de les éclairer, mais j'espère qu'ils ne se découragent pas au point d'abandonner tous les efforts pour planifier leurs expériences!
whuber
2
Cela me rappelle pas mal de stats.stackexchange.com/q/2492/32036 , et pas seulement à cause de la similitude syntaxique dans la formulation de la question du titre. Semble une question de savoir comment comprendre les hypothèses. Un point majeur dans les deux est de comprendre les sensibilités de ces analyses au biais plutôt que de porter des jugements généraux, tout ou rien, que leurs hypothèses sont (a) absolument cruciales ou (b) tout à fait négligeables. C'est la clé d'une inférence utile et non nuisible en général. J'ai peur que ce ne soit pas un homme de paille; les gens pensent trop souvent en absolu quand ils ne savent pas ou ne peuvent pas se soucier ou s'en soucier.
Nick Stauner le
5
Je ne voulais pas ajouter cela dans la question parce que je m'intéressais aux recommandations que d'autres ont faites, mais la recommandation d'Uri Simonsohn à la fin de la conférence était d'alimenter votre étude pour détecter le moindre effet dont vous vous souciez.
Patrick S.Forscher
9
@ PatrickS.Forscher: Donc, après tout, tout est dit et fait, il croit en une analyse de puissance a priori. Il pense simplement que la taille de l'effet doit être choisie judicieusement: pas une estimation de ce que cela pourrait être, mais plutôt la valeur minimale dont vous vous souciez. Cela ressemble à la description classique de l'analyse de puissance: s'assurer que vous disposez de suffisamment de données pour que ce que vous croyez être une différence pratiquement significative apparaisse comme une différence statistiquement significative.
Wayne
2
La façon dont Uri a formulé le discours, je pense qu'il pense que l'analyse de pouvoir a priori est inutile, comme c'est généralement le cas dans les sciences sociales, mais peut-être pas comme cela est enseigné ailleurs. En effet, on m'a appris à baser mon analyse de puissance sur une estimation raisonnable de la taille de l'effet que je recherche, et non sur l'effet que je voudrais en termes pratiques.
Patrick S.Forscher

Réponses:

20

Le problème de base ici est vrai et assez bien connu dans les statistiques. Cependant, son interprétation / affirmation est extrême. Il y a plusieurs questions à discuter:

NNN50%80%ddd=.5N=1287.9%5.5%.116.9%.112.6%

entrez la description de l'image ici

Si vous travaillez à partir d'effets estimés à partir de recherches antérieures, par exemple une méta-analyse ou une étude pilote, la solution à cela est d'incorporer votre incertitude sur la taille réelle de l'effet dans votre calcul de puissance. Idéalement, cela impliquerait d'intégrer sur toute la distribution des tailles d'effets possibles. C'est probablement un pont trop loin pour la plupart des applications, mais une stratégie rapide et sale consiste à calculer la puissance à plusieurs tailles d'effets possibles, votre estimation de Cohend

80%

Deuxièmement, en ce qui concerne l'affirmation plus large selon laquelle les analyses de puissance (a priori ou autrement) reposent sur des hypothèses, on ne sait pas quoi faire de cet argument. Bien sûr qu'ils le font. Il en va de même pour tout le reste. Ne pas exécuter une analyse de puissance, mais simplement rassembler une quantité de données basée sur un nombre que vous avez choisi dans un chapeau, puis analyser vos données, n'améliorera pas la situation. De plus, vos analyses résultantes reposeront toujours sur des hypothèses, comme toutes les analyses (électriques ou autres) le font toujours. Si, au contraire, vous décidez de continuer à collecter des données et à les réanalyser jusqu'à ce que vous obteniez une image que vous aimez ou que vous en ayez assez, cela sera beaucoup moins valable (et impliquera toujours des hypothèses qui peuvent être invisibles pour le locuteur, mais qui existent néanmoins). Mettre tout simplement,il n'y a aucun moyen de contourner le fait que des hypothèses sont faites dans la recherche et l'analyse des données .

Vous pouvez trouver ces ressources intéressantes:

gung - Réintégrer Monica
la source
1
Je pense que l'argument d'Uri Simonsohn n'était pas que les hypothèses en soi sont mauvaises, mais que les analyses de puissance en général sont si sensibles aux hypothèses qu'elles les rendent inutiles pour la planification de la taille des échantillons. Cependant, vos points sont excellents, tout comme les références que vous avez fournies (+1).
Patrick S.Forscher
Vos modifications continuent d'améliorer cette réponse déjà excellente. :)
Patrick S.Forscher
3
Je suis d'accord pour dire que c'est une excellente réponse, et je voulais juste vous faire savoir (ainsi que d'autres) que je vous ai cité dans un récent article de blog que j'ai écrit sur ce sujet: jakewestfall.org/blog/index.php/2015/06/ 16 /…
Jake Westfall
2
@JakeWestfall, beau post! Sur une note différente, lorsque vous étudiez les cookies, le faites-vous principalement en les mangeant? Avez-vous besoin d'un consultant en statistique pour l'un de ces projets?
gung - Réintégrer Monica