Dois-je déranger que la puissance du test t soit relativement faible lorsque H0 est déjà rejeté?

8

J'ai deux très petits échantillons (n=7pour chacun) et j'obtiens une puissance de test t à deux échantillons pour 0,49, ce qui est relativement petit (calculé par R power.t.test()). Cependant, le test t Welch Two Sample donne une valeur de p de0.032 ici, et donc l'hypothèse nulle peut être rejetée.

Dois-je maintenant m'inquiéter que la puissance soit petite?

Ma compréhension est que le pouvoir = 1ββest la probabilité d'erreur de type II. Ici, cela signifie que mon test ne parviendrait pas à rejeter H0 dans environ 50% des cas où il devrait être rejeté, donc je devrais être inquiet surtout lorsque mes échantillons particuliers ne pouvaient pas rejeter H0. Mais dans le cas de mes échantillons particuliers, il semble que j'ai de la chance et mon test t quelque peu manquant de puissance a réussi à rejeter, donc je n'ai pas besoin de me soucier de la bêta et je peux profiter de pouvoir montrer une différence significative dans l'échantillon veux dire.

Mon interprétation est-elle correcte? Ou est-ce que je manque quelque chose d'important?

jrx1301
la source
2
La puissance est quelque chose que vous devez calculer avant de concevoir une expérience, pour choisir l'échelle d'expérience nécessaire pour détecter une différence d'une certaine ampleur. Il ne sert à rien de le calculer après.
EdM
Vous refusez pour l'une des deux raisons; votre null est faux ou vous avez fait une erreur de type I. Si le nul a une chance d'être vrai, plus votre puissance est faible, plus vous avez de chances de commettre une erreur de type I. Cependant, si vous calculez la puissance en fonction de la taille de l'effet observé , faites attention, vous devez être très prudent lorsque vous travaillez avec cela; il ne se comporte pas comme on pourrait s'y attendre.
Glen_b -Reinstate Monica

Réponses:

5

Au sens étroit, vous avez raison. Le pouvoir est la chance de rejeter correctement une fausse hypothèse nulle, vous avez donc eu une petite chance mais vous avez quand même pu le faire.

Cependant, dans une perspective de mise à jour des croyances bayésiennes, "réduire le pouvoir implique de réduire le changement de croyance qui est justifié d'observer un résultat statistiquement significatif (McClelland et al. 2015)." Pensez-y de cette façon: si je vous disais que j'ai interrogé 30 000 personnes du grand public et constaté que, contrairement aux chiffres de vente, les gens ont tendance à aimer Pepsi plus que Coke, ce serait très convaincant. J'ai trouvé un résultat après avoir étudié 1% d'une population (c'est-à-dire le grand public américain). Il est susceptible de se généraliser à la population plus large. Si j'ai interrogé 7 personnes et trouvé la même chose, même si c'était statistiquement significatif, je ne convaincrais personne. Vous pouvez faire valoir de nombreuses raisons à cela (vous ne pouvez pas obtenir un échantillon représentatif, les hypothèses ANOVA / régression peuvent ne pas être respectées, etc.), mais quoi ' s important est que la puissance élevée signifie très persuasif (et vous devriez être aussi critique ou plus de vos résultats que ceux que vous essayez de convaincre). Pour les mathématiques bayésiennes ainsi que d'autres explications, vous pouvez consulter l'une des options suivantes.

Abelson, R. P. (2012). Statistics as principled argument. Psychology Press.

Brinberg, D., Lynch Jr, J. G., & Sawyer, A. G. (1992). Hypothesized and confounded explanations in theory tests: A Bayesian analysis. Journal of Consumer Research, 139-154.

McClelland, G., Lynch, J. G., Irwin, J. R., Spiller, S. A., & Fitzsimons, G. J. (2015). Median Splits, Type II Errors, and False Positive Consumer Psychology: Don't Fight the Power. Type II Errors, and False Positive Consumer Psychology: Don't Fight the Power (March 10, 2015).

De plus, Ioannidis (2005) fournit des arguments convaincants pour des résultats de faible puissance reflétant des erreurs de type I même en l'absence de p-hacking et d'autres biais qui résultent souvent d'une faible puissance (et le papier est en libre accès au cas où vous ne travaillez pas pour une université ou quelque chose de similaire!).

le_andrew
la source
Merci beaucoup pour votre réponse! Je vais certainement vérifier McClelland et Ioannidis (je sais que c'est un journal assez populaire). Votre exemple avec l'enquête Pepsi-Coke a vraiment du sens, alors j'essaie juste de faire un parallèle avec ma situation: mes échantillons sont liés au nombre de rechutes de patients schizophrènes dans une population observée donnée sur 7 ans en deux mois comparés ( par exemple, janvier contre juillet). Il n'y a donc aucune chance d'améliorer le protocole expérimental, comme approcher plus de gens. Je me demandais simplement si je pouvais déjà dire quelque chose à partir des données que j'ai déjà.
jrx1301
1
Vous le pouvez certainement. Le problème vient de l'interprétation, pas des statistiques. Certaines personnes prendraient votre résultat et concluraient: "J'ai résolu la schizophrénie!" ou moins dramatiquement "J'ai un résultat significatif, donc ma théorie est vraie et s'applique à tout le monde!" Vous avez probablement des preuves qui soutiennent une théorie, mais sa généralisation peut être remise en question. Considérez des choses comme la population réelle à partir de laquelle vous avez échantillonné, c'est-à-dire que vous n'avez pas réellement échantillonné à partir de la population des "patients schizophrènes" mais à partir d'une sous-population plus petite. La généralisation à un pop'n plus large nécessite des arguments extra-statistiques.
le_andrew
Si vous avez interrogé n = 30000 personnes mais que vous n'avez obtenu que p = 0,032 (comme dans l'OP) pour la différence Pepsi / Coke, je ne vois pas pourquoi cela est plus convaincant que d'obtenir la même valeur de p avec seulement une poignée de personnes. Toute taille d'effet significative avec n = 30 000 devrait donner une valeur p minuscule, donc p = 0,032 suggère une taille d'effet microscopique à laquelle IMHO I ne serait pas particulièrement disposé à faire confiance.
amoeba
Vous dites: «Le pouvoir est la chance de rejeter correctement une fausse hypothèse nulle», ce qui est correct. et vous continuez '' ... donc vous avez eu une petite chance mais avez quand même pu le faire '' et pour ce dernier j'ai des doutes car la partie '' fausse hypothèse nulle '' est manquante. La puissance est la probabilité de rejeterH0 quand H0 est faux et la deuxième partie de votre déclaration concerne uniquement le rejet H0.
2

Cela dépend de la façon dont l'analyse de puissance a été effectuée. D'une manière générale, il existe une relation entre quatre variables (alpha, puissance, taille de l'effet etN) de telle sorte que si vous en spécifiez trois, vous pouvez résoudre le quatrième.

En règle générale, lorsque les gens exécutent une analyse de puissance après avoir analysé leurs données, ils effectuent une analyse de puissance post-hoc (d'où le nom), ce qui signifie qu'ils branchent leur valeur pour alpha, leur taille d'effet observée et leurN, pour résoudre pour le pouvoir. Vous n'avez certainement pas à le faire de cette façon (vous pouvez le faire à l'avance avec une taille d'effet théoriquement suggérée et leNvous savez sera disponible pour vous), mais si vous le faites, les résultats sont largement perdus. Plus précisément, si votre résultat était significatif, la puissance sera>50%, et si votre résultat n'était pas significatif, la puissance sera <50%.

Cela ne semble pas être tout à fait ce que vous avez trouvé. Une possibilité est qu'il existe un écart subtil entre les méthodes utilisées dans votre test et celles de l'analyse de puissance. Ceci est suggéré par le fait que votre observationp-la valeur est proche de .05 et votre puissance calculée est proche de 50%, même s'ils se trouvent sur des côtés différents de la ligne. Une autre possibilité est que vous ayez utilisé une taille d'effet légèrement différente de celle que vous avez trouvée.

Donc, "cela devrait-il [vous] déranger que la puissance soit petite?" Oui et non. Si vous faisiez une analyse de puissance post-hoc traditionnelle (invalide), vous alliez nécessairement obtenir des valeurs comme celle-là - l'exercice n'était pas du tout informatif. D'un autre côté, si nous prenons l'analyse de la puissance au sérieux, un effet significatif avec une configuration de faible puissance signifie que votre effet observé doit être biaisé pour être plus grand qu'il ne l'est vraiment, vous devriez donc faire moins confiance aux résultats.

gung - Réintégrer Monica
la source
Super article! Au cas où vous ne seriez pas au courant. Il y a un message de suivi à l'une de vos réponses précédentes ici stats.stackexchange.com/questions/309745/…
Un peu trop curieux du
-1

Dénoter p le p-valeur de votre test (sous forme de variable aléatoire) et corrigez certains α. Appelez un résultat de test significatif ou positif lorsquepα. On aP(pα|H0)α. De plus, laissezβ être tel que P(p>α|H1)β. alors1β est la puissance du test.

Traiter H0 et H1 comme événements (complémentaires), le théorème de Bayes donne:

P(H1|pα)P(H0|pα)=P(pα|H1)P(pα|H0)P(H1)P(H0)1βαP(H1)P(H0)
Cela montre que les probabilités de publication pour H1 sont une version mise à l'échelle des cotes antérieures, avec la force de la mise à l'échelle en faveur de H1 augmentant avec 1β. Cela signifie que nous apprenons plus d'un test positif lorsque1β est large.

Pour plus d'illustration, regardez les intervalles de confiance (IC). On peut affirmer qu'une plus grande taille d'échantillon rendra l'IC plus étroit et donc, si le test était significatif pour un échantillon plus petit, il sera également significatif pour l'échantillon plus grand. Cependant, l'emplacement du CI peut également changer lorsque nous incluons plus de données dans notre échantillon, ce qui peut rendre le résultat non significatif. Il est également concevable que l'échantillon le plus grand ait une erreur standard beaucoup plus grande et donc l'IC deviendra en fait plus large. On pourrait dire qu'une taille d'échantillon plus grande donne aux faits plus de possibilités de faire leurs preuves.

Il y a eu récemment une discussion intéressante sur l'interprétation de p-valeurs, voir par exemple:

[1] Colquhoun, "Une enquête sur le taux de fausses découvertes et la mauvaise interprétation des valeurs de p", Royal Society Open Science, 2014

[2] Colquhoun, "La reproductibilité de la recherche et la mauvaise interprétation des valeurs P", 2017, http://www.biorxiv.org/content/early/2017/08/07/144337

[3] "Que dirait Cohen? Un commentaire sur p<.005", https://replicationindex.wordpress.com/2017/08/02/what-would-cohen-say-a-comment-on-p-005/

Concernant votre résultat particulier, je ne suis pas qualifié pour le juger. En utilisant uniquement votrep-valeur et la classification de [2], elle se situe entre "preuves faibles: mérite un autre regard" et "preuves modérées pour un effet réel".

Lasse Kliemann
la source