Contexte: J'ai lu un article dans lequel les auteurs rapportent une corrélation de Pearson de 0,754 à partir de la taille de l'échantillon 878. La valeur de p résultante pour le test de corrélation est significative "deux étoiles" (c'est-à-dire p <0,01). Cependant, je pense qu'avec une taille d'échantillon aussi grande, la valeur de p correspondante devrait être inférieure à 0,001 (c'est-à-dire trois étoiles significatives).
- Les valeurs de p pour ce test peuvent-elles être calculées uniquement à partir du coefficient de corrélation de Pearson et de la taille de l'échantillon?
- Si oui, comment cela peut-il être fait dans R?
hypothesis-testing
correlation
p-value
fraud
Miroslav Sabo
la source
la source
Réponses:
Oui, cela peut être fait si vous utilisez la transformation R-to-Z de Fisher. D'autres méthodes (par exemple bootstrap) peuvent présenter certains avantages mais nécessitent les données d'origine. Dans R ( r est le coefficient de corrélation de l'échantillon, n est le nombre d'observations):
Voir aussi cet article sur mon blog .
Cela dit, que ce soit .01 ou .001 n'a pas beaucoup d'importance. Comme vous l'avez dit, cela dépend principalement de la taille de l'échantillon et vous savez déjà que la taille de l'échantillon est grande. La conclusion logique est que vous n'avez probablement même pas besoin d'un test du tout (surtout pas un test de l'hypothèse dite «nulle» que la corrélation est 0). Avec N = 878, vous pouvez être assez confiant dans la précision de l'estimation et vous concentrer sur son interprétation directe (c'est-à-dire que 0,75 est grand dans votre domaine?).
Cependant, formellement, lorsque vous effectuez un test statistique dans le cadre Neyman-Pearson, vous devez spécifier le niveau d'erreur à l'avance. Donc, si les résultats du test sont vraiment importants et que l'étude a été planifiée avec 0,01 comme seuil, cela n'a de sens que de rapporter p <0,01 et vous ne devriez pas opportunément le faire p <0,001 sur la base de la valeur p obtenue . Ce type de flexibilité non divulguée est même l'une des principales raisons de la critique des petites étoiles et plus généralement de la façon dont les tests de signification d'hypothèse nulle sont pratiqués en sciences sociales.
Voir également Meehl, PE (1978). Risques théoriques et astérisques tabulaires: Sir Karl, Sir Ronald et la lente progression de la psychologie douce. Journal of Consulting and Clinical Psychology, 46 (4), 806-834. (Le titre contient une référence à ces «étoiles» mais le contenu est une discussion beaucoup plus large du rôle des tests de signification.)
la source
Il existe une autre statistique:
qui a une distribution t avec n-2 degrés de liberté. Voici comment cela fonctionne, par exemple: http://www.danielsoper.com/statcalc3/calc.aspx?id=44
la source