Calcul de la puissance statistique

22

Si je comprends bien, j'ai besoin de connaître au moins trois aspects (sur quatre) de mon étude proposée afin d'effectuer une analyse de puissance, à savoir:

  • type de test - J'ai l'intention d'utiliser r et ANCOVA / Regression de Pearson - GLM
  • niveau de signification (alpha) - J'ai l'intention d'utiliser 0,05
  • taille d'effet attendue - J'ai l'intention d'utiliser une taille d'effet moyenne (0,5)
  • taille de l'échantillon

Quelqu'un pourrait-il recommander un bon calculateur de puissance en ligne que je peux utiliser pour faire un calcul de puissance a priori ? (SPSS peut-il faire un calcul de puissance a priori ?)

J'ai rencontré GPower mais je cherche un outil plus simple!

Adhesh Josh
la source
Malheureusement, le package SPSS ne comprend pas de module d'analyse de puissance. La société IBM SPSS vend un programme distinct pour l'analyse de l'alimentation.
ttnphns
6
Je donnerais une chance à GPower. Après 20 ou 30 minutes d'exploration, vous trouverez probablement que c'est très gérable - au moins pour des procédures comme la corrélation, pas nécessairement pour un modèle de régression compliqué.
rolando2
Merci! Existe-t-il un guide convivial sur GPower?
Adhesh Josh
Il semble que ce soit pour une demande de subvention. Celles-ci sont vexantes à produire et à évaluer. Pour les plans expérimentaux bien utilisés (études d'association à l'échelle du génome par exemple), il peut y avoir des calculateurs spécialisés bien documentés. Sinon, je pense que la réponse de G. Jay Kerns est la bonne voie à suivre avec l'ajout suivant: pendant que vous y êtes, vous devez simuler une gamme des paramètres les plus importants et présenter un graphique.
Leo Schalkwyk

Réponses:

43

Ce n'est pas une réponse que vous voudrez entendre, je le crains, mais je vais le dire quand même: essayez de résister à la tentation des calculatrices en ligne (et économisez votre argent avant d'acheter des calculatrices propriétaires).

Voici quelques raisons: 1) les calculatrices en ligne utilisent toutes une notation différente et sont souvent mal documentées. C'est une perte de temps. 2) SPSS propose un calculateur de puissance mais je ne l'ai même jamais essayé car il était trop cher pour mon département! 3) Des expressions comme «taille d'effet moyenne» sont au mieux trompeuses et au pire tout simplement fausses pour tous, sauf pour les plans de recherche les plus simples. Il y a trop de paramètres et trop d'interaction pour pouvoir distiller la taille de l'effet jusqu'à un seul nombre dans [0,1]. Même si vous pouviez le mettre en un seul nombre, rien ne garantit que le 0,5 de Cohen correspond à "moyen" dans le contexte du problème.

Croyez-moi - il vaut mieux à long terme mordre la balle et vous apprendre à utiliser la simulation à votre avantage (et au bénéfice de la ou des personnes que vous consultez). Asseyez-vous avec eux et procédez comme suit:

1) Décidez d'un modèle approprié dans le contexte du problème (on dirait que vous avez déjà travaillé sur cette partie).

2) Les consulter pour décider quels devraient être les paramètres nuls, le comportement du groupe témoin, quoi que cela signifie dans le contexte du problème.

3) Consultez-les pour déterminer quels devraient être les paramètres afin que la différence soit pratiquement significative . S'il y a des limites de taille d'échantillon, cela doit également être identifié ici.

4) Simulez les données selon les deux modèles en 2) et 3) et exécutez votre test. Vous pouvez le faire avec un logiciel à gogo - choisissez votre favori et allez-y. Voyez si vous avez rejeté ou non.

np^p^(1-p^)/n

Si vous effectuez votre analyse de puissance de cette façon, vous allez trouver plusieurs choses: A) il y avait beaucoup plus de paramètres que vous ne l'aviez imaginé. Cela vous fera vous demander comment dans le monde il est possible de les regrouper en un seul numéro comme "moyen" - et vous verrez que ce n'est pas possible, du moins pas de manière simple. B) votre puissance va être beaucoup plus petite que la plupart des autres calculatrices annoncent. C) vous pouvez augmenter la puissance en augmentant la taille de l'échantillon, mais attention! Vous trouverez peut-être comme moi que pour détecter une différence qui est "pratiquement significative", vous avez besoin d'un échantillon d'une taille prohibitive.

Si vous rencontrez des difficultés avec l'une des étapes ci-dessus, vous pouvez recueillir vos pensées, bien formuler une question pour CrossValidated, et les personnes ici vous aideront.

EDIT: Dans le cas où vous trouvez que vous devez absolument utiliser une calculatrice en ligne, la meilleure que j'ai trouvée est la page Puissance et taille de l'échantillon de Russ Lenth . Il existe depuis longtemps, il a une documentation relativement complète, il ne dépend pas de la taille des effets en conserve et a des liens vers d'autres articles qui sont pertinents et importants.

UNE AUTRE MODIFICATION: Par coïncidence, lorsque cette question est apparue, j'étais en train d'écrire un article de blog pour étoffer certaines de ces idées (sinon, je n'aurais peut-être pas répondu aussi rapidement). Quoi qu'il en soit, je l'ai terminé le week-end dernier et vous pouvez le trouver ici . Il n'est pas écrit avec SPSS à l'esprit, mais je parierais que si une personne était intelligente, elle pourrait en traduire des parties en syntaxe SPSS.


la source
8
+1 Bonne réponse. Il convient de souligner les inconvénients de la simulation. (L'alternative est que les courbes de puissance peuvent être calculées mathématiquement.) La simulation devient compliquée lorsque de nombreux paramètres (tels que la taille de l'effet et la taille de l'échantillon) doivent être manipulés ou lorsque vous recherchez une valeur seuil, telle qu'une taille d'échantillon minimale. Même une expression exacte approximative de la puissance peut être utile pour indiquer en général comment se comporte la puissance et pour identifier les solutions initiales qui peuvent être polies avec un peu de simulation.
whuber
2
@whuber Merci, et vous avez absolument raison. Votre commentaire me rappelle qu'il y a souvent une incertitude supplémentaire dans les paramètres null / alt (informations rares, études pilotes minables, etc.) qui ajoute une autre couche de complexité à l'approche de simulation. C'est un autre avantage de l'approche mathématique.
2
Au lieu de fixer les valeurs des paramètres inconnus, il est utile de les simuler en affectant une distribution préalable à ces paramètres puis d'obtenir une "puissance préalable" (ce n'est pas une approche bayésienne, malgré le concept de distribution préalable, car nous simulons le résultat du test fréquentiste)
Stéphane Laurent
6
Il y a deux problèmes avec la simulation: l'apprendre (celui-ci est soluble) et faire l'étape 3. D'après mon expérience, aucun de mes clients ne serait disposé à le faire 3). Beaucoup ont du mal à spécifier n'importe quelle taille d'effet. Leur demander de spécifier les paramètres dans (disons) une équation de régression multiple serait ... eh bien, ils ne sauraient pas comment répondre, même s'ils en connaissent le sens, ils ne voudront pas le préciser.
Peter Flom - Réintègre Monica
2
Stéphane oui, vous avez raison, et c'est ce que je voulais dire par la couche supplémentaire que j'essayais de communiquer. @Peter Sigh! oui, je l'ai rencontré aussi. J'essaie de parler des moyens, des erreurs-types, etc., puis j'étudie autant de maths que possible après. Il s'agit en partie d'un obstacle à la communication qui est parfois un défi. La partie de la réticence est cependant encore plus difficile. Avant, j'abandonnais et j'essayais de remplir les blancs moi-même, mais cela fonctionnait rarement bien. Autrement dit, la réponse est essentiellement un tir dans le noir avec un bandeau sur les yeux et en arrière.