J'ai deux très petits échantillons (pour chacun) et j'obtiens une puissance de test t à deux échantillons pour 0,49, ce qui est relativement petit (calculé par R power.t.test()
). Cependant, le test t Welch Two Sample donne une valeur de p de ici, et donc l'hypothèse nulle peut être rejetée.
Dois-je maintenant m'inquiéter que la puissance soit petite?
Ma compréhension est que le pouvoir = où est la probabilité d'erreur de type II. Ici, cela signifie que mon test ne parviendrait pas à rejeter H0 dans environ 50% des cas où il devrait être rejeté, donc je devrais être inquiet surtout lorsque mes échantillons particuliers ne pouvaient pas rejeter H0. Mais dans le cas de mes échantillons particuliers, il semble que j'ai de la chance et mon test t quelque peu manquant de puissance a réussi à rejeter, donc je n'ai pas besoin de me soucier de la bêta et je peux profiter de pouvoir montrer une différence significative dans l'échantillon veux dire.
Mon interprétation est-elle correcte? Ou est-ce que je manque quelque chose d'important?
Réponses:
Au sens étroit, vous avez raison. Le pouvoir est la chance de rejeter correctement une fausse hypothèse nulle, vous avez donc eu une petite chance mais vous avez quand même pu le faire.
Cependant, dans une perspective de mise à jour des croyances bayésiennes, "réduire le pouvoir implique de réduire le changement de croyance qui est justifié d'observer un résultat statistiquement significatif (McClelland et al. 2015)." Pensez-y de cette façon: si je vous disais que j'ai interrogé 30 000 personnes du grand public et constaté que, contrairement aux chiffres de vente, les gens ont tendance à aimer Pepsi plus que Coke, ce serait très convaincant. J'ai trouvé un résultat après avoir étudié 1% d'une population (c'est-à-dire le grand public américain). Il est susceptible de se généraliser à la population plus large. Si j'ai interrogé 7 personnes et trouvé la même chose, même si c'était statistiquement significatif, je ne convaincrais personne. Vous pouvez faire valoir de nombreuses raisons à cela (vous ne pouvez pas obtenir un échantillon représentatif, les hypothèses ANOVA / régression peuvent ne pas être respectées, etc.), mais quoi ' s important est que la puissance élevée signifie très persuasif (et vous devriez être aussi critique ou plus de vos résultats que ceux que vous essayez de convaincre). Pour les mathématiques bayésiennes ainsi que d'autres explications, vous pouvez consulter l'une des options suivantes.
De plus, Ioannidis (2005) fournit des arguments convaincants pour des résultats de faible puissance reflétant des erreurs de type I même en l'absence de p-hacking et d'autres biais qui résultent souvent d'une faible puissance (et le papier est en libre accès au cas où vous ne travaillez pas pour une université ou quelque chose de similaire!).
la source
Cela dépend de la façon dont l'analyse de puissance a été effectuée. D'une manière générale, il existe une relation entre quatre variables (alpha, puissance, taille de l'effet etN ) de telle sorte que si vous en spécifiez trois, vous pouvez résoudre le quatrième.
En règle générale, lorsque les gens exécutent une analyse de puissance après avoir analysé leurs données, ils effectuent une analyse de puissance post-hoc (d'où le nom), ce qui signifie qu'ils branchent leur valeur pour alpha, leur taille d'effet observée et leurN , pour résoudre pour le pouvoir. Vous n'avez certainement pas à le faire de cette façon (vous pouvez le faire à l'avance avec une taille d'effet théoriquement suggérée et leN vous savez sera disponible pour vous), mais si vous le faites, les résultats sont largement perdus. Plus précisément, si votre résultat était significatif, la puissance sera>50% , et si votre résultat n'était pas significatif, la puissance sera <50% .
Cela ne semble pas être tout à fait ce que vous avez trouvé. Une possibilité est qu'il existe un écart subtil entre les méthodes utilisées dans votre test et celles de l'analyse de puissance. Ceci est suggéré par le fait que votre observationp -la valeur est proche de .05 et votre puissance calculée est proche de 50% , même s'ils se trouvent sur des côtés différents de la ligne. Une autre possibilité est que vous ayez utilisé une taille d'effet légèrement différente de celle que vous avez trouvée.
Donc, "cela devrait-il [vous] déranger que la puissance soit petite?" Oui et non. Si vous faisiez une analyse de puissance post-hoc traditionnelle (invalide), vous alliez nécessairement obtenir des valeurs comme celle-là - l'exercice n'était pas du tout informatif. D'un autre côté, si nous prenons l'analyse de la puissance au sérieux, un effet significatif avec une configuration de faible puissance signifie que votre effet observé doit être biaisé pour être plus grand qu'il ne l'est vraiment, vous devriez donc faire moins confiance aux résultats.
la source
Dénoterp le p -valeur de votre test (sous forme de variable aléatoire) et corrigez certains α . Appelez un résultat de test significatif ou positif lorsquep≤α . On aP(p≤α|H0)≤α . De plus, laissezβ être tel que P(p>α|H1)≤β . alors1−β est la puissance du test.
TraiterH0 et H1 comme événements (complémentaires), le théorème de Bayes donne:
Pour plus d'illustration, regardez les intervalles de confiance (IC). On peut affirmer qu'une plus grande taille d'échantillon rendra l'IC plus étroit et donc, si le test était significatif pour un échantillon plus petit, il sera également significatif pour l'échantillon plus grand. Cependant, l'emplacement du CI peut également changer lorsque nous incluons plus de données dans notre échantillon, ce qui peut rendre le résultat non significatif. Il est également concevable que l'échantillon le plus grand ait une erreur standard beaucoup plus grande et donc l'IC deviendra en fait plus large. On pourrait dire qu'une taille d'échantillon plus grande donne aux faits plus de possibilités de faire leurs preuves.
Il y a eu récemment une discussion intéressante sur l'interprétation dep -valeurs, voir par exemple:
[1] Colquhoun, "Une enquête sur le taux de fausses découvertes et la mauvaise interprétation des valeurs de p", Royal Society Open Science, 2014
[2] Colquhoun, "La reproductibilité de la recherche et la mauvaise interprétation des valeurs P", 2017, http://www.biorxiv.org/content/early/2017/08/07/144337
[3] "Que dirait Cohen? Un commentaire surp<.005 ", https://replicationindex.wordpress.com/2017/08/02/what-would-cohen-say-a-comment-on-p-005/
Concernant votre résultat particulier, je ne suis pas qualifié pour le juger. En utilisant uniquement votrep -valeur et la classification de [2], elle se situe entre "preuves faibles: mérite un autre regard" et "preuves modérées pour un effet réel".
la source