Beaucoup d'accent est mis sur la fiabilité et la communication des tailles d'effet plutôt que sur les valeurs p dans la recherche appliquée (par exemple, citations plus loin ci-dessous).
Mais n'est-il pas vrai qu'une taille d'effet, tout comme une valeur de p, est une variable aléatoire et, en tant que telle, peut varier d'un échantillon à l'autre lorsque la même expérience est répétée? En d'autres termes, je demande quelles caractéristiques statistiques (par exemple, la taille de l'effet est moins variable d'un échantillon à l'autre que la valeur p) font que la taille de l'effet est un meilleur indice de mesure des preuves que les valeurs p?
Je dois cependant mentionner un fait important qui sépare une valeur de p d'une taille d'effet. Autrement dit, une taille d'effet est quelque chose à estimer car elle a un paramètre de population, mais une valeur p n'est rien à estimer car elle n'a pas de paramètre de population.
Pour moi, la taille de l'effet est simplement une métrique qui, dans certains domaines de recherche (par exemple, la recherche humaine), aide à transformer les résultats empiriques provenant de divers outils de mesure développés par les chercheurs en une métrique commune (il est juste de dire que l'utilisation de cette métrique de la recherche humaine peut mieux s'adapter le club de recherche quant).
Peut-être que si nous prenons une proportion simple comme taille d'effet, ce qui suit (en R) est ce qui montre la suprématie des tailles d'effet sur les valeurs de p? (La valeur de p change mais pas la taille de l'effet)
binom.test(55, 100, .5) ## p-value = 0.3682 ## proportion of success 55%
binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%
Notez que la plupart des tailles d'effet sont liées linéairement à une statistique de test. Ainsi, il est facile de faire des tests d'hypothèse nulle en utilisant des tailles d'effet.
Par exemple, la statistique t résultant d'une conception pré-post peut facilement être convertie en une taille d'effet d de Cohen correspondante. En tant que telle, la distribution du d de Cohen est simplement la version à l' échelle de l'emplacement de at distribution.
Les citations:
Parce que les valeurs p sont des indices confondus, en théorie, 100 études avec des tailles d'échantillon variables et 100 tailles d'effet différentes pourraient chacune avoir la même valeur p unique, et 100 études avec la même taille d'effet unique pourraient chacune avoir 100 valeurs différentes pour la valeur p .
ou
La valeur de p est une variable aléatoire qui varie d'un échantillon à l'autre. . . . Par conséquent, il n'est pas approprié de comparer les valeurs de p de deux expériences distinctes, ou de tests sur deux variables mesurées dans la même expérience, et de déclarer que l'une est plus significative que l'autre?
Citations:
Thompson, B. (2006). Fondements des statistiques comportementales: une approche basée sur les connaissances. New York, NY: Guilford Press.
Bon, PI et Hardin, JW (2003). Erreurs courantes dans les statistiques (et comment les éviter). New York: Wiley.
Réponses:
Le conseil de fournir des tailles d'effet plutôt que des valeurs P est basé sur une fausse dichotomie et est idiot. Pourquoi ne pas présenter les deux?
Les conclusions scientifiques devraient être basées sur une évaluation rationnelle des preuves et de la théorie disponibles. Les valeurs de p et les tailles d'effet observées seules ou ensemble ne suffisent pas.
Aucun des passages cités que vous fournissez n'est utile. Bien sûr, les valeurs P varient d'une expérience à l'autre, la force des preuves dans les données varie d'une expérience à l'autre. La valeur P n'est qu'une extraction numérique de ces preuves au moyen du modèle statistique. Compte tenu de la nature de la valeur P, il est très rarement pertinent à des fins analytiques de comparer une valeur P avec une autre, c'est peut-être ce que l'auteur de la citation essaie de transmettre.
Si vous souhaitez comparer des valeurs de P, vous auriez probablement dû effectuer un test de signification sur une autre disposition des données afin de répondre de manière sensible à la question d'intérêt. Voir ces questions: p-values pour p-values? et Si la moyenne d'un groupe diffère de zéro mais pas l'autre, peut-on conclure que les groupes sont différents?
La réponse à votre question est donc complexe. Je ne trouve pas utiles les réponses dichotomiques aux données basées sur les valeurs P ou les tailles d'effet. Les tailles d'effet sont-elles donc supérieures aux valeurs P? Oui, non, parfois, peut-être, et cela dépend de votre objectif.
la source
Dans le contexte de la recherche appliquée, les tailles d'effet sont nécessaires pour que les lecteurs interprètent la signification pratique (par opposition à la signification statistique) des résultats. En général, les valeurs de p sont beaucoup plus sensibles à la taille de l'échantillon que les tailles d'effet. Si une expérience mesure avec précision une taille d'effet (c'est-à-dire qu'elle est suffisamment proche du paramètre de population qu'elle estime) mais donne une valeur de p non significative, toutes choses étant égales par ailleurs, l'augmentation de la taille de l'échantillon se traduira par la même taille d'effet mais une valeur de p inférieure. Cela peut être démontré par des analyses de puissance ou des simulations.
À la lumière de cela, il est possible d'obtenir des valeurs de p très significatives pour des tailles d'effet qui n'ont aucune signification pratique. En revanche, les plans d'étude à faible puissance peuvent produire des valeurs de p non significatives pour des tailles d'effet d'une grande importance pratique.
Il est difficile de discuter des concepts de signification statistique vis-à-vis de la taille de l'effet sans une application spécifique dans le monde réel. À titre d'exemple, considérons une expérience qui évalue l'effet d'une nouvelle méthode d'étude sur la moyenne pondérée cumulative des élèves (GPA). Je dirais qu'une taille d'effet de 0,01 point a peu d'importance pratique (c'est-à-dire 2,50 par rapport à 2,51). En supposant un échantillon de 2 000 élèves dans les groupes de traitement et de contrôle, et un écart-type de la population de 0,5 point:
moyenne de l' échantillon de traitement = 2,51
contrôle échantillon moyenne = 2,50
taille de l'effet = 2,51 - 2,50 = 0,01
p = 0,53
L'augmentation de la taille de l'échantillon à 20 000 étudiants et le maintien de tout le reste constant donne une valeur de p significative:
moyenne de l' échantillon de traitement = 2,51
contrôle échantillon moyenne = 2,50
taille de l'effet = 2,51 - 2,50 = 0,01
p = 0,044
Évidemment, il n'est pas anodin d'augmenter la taille de l'échantillon d'un ordre de grandeur! Cependant, je pense que nous pouvons tous convenir que l'amélioration pratique offerte par cette méthode d'étude est négligeable. Si nous nous appuyions uniquement sur la valeur de p, nous pourrions croire le contraire dans le cas n = 20 000.
Personnellement, je préconise de rapporter à la fois les valeurs de p et les tailles d'effet. Et des points bonus pour les statistiques t ou F, les degrés de liberté et les diagnostics de modèle!
la source
var.equal = TRUE
alors que vossd
s sont égaux. Avec un tel contexte, je ne sais pas pourquoi vous avez même posté une réponse comme celle-ci. OP pose une question qui n'a pas de réponse facile au moins à l'heure actuelle!Je travaille actuellement dans le domaine de la science des données et avant cela, je travaillais dans la recherche en éducation. Pendant chaque "carrière", j'ai collaboré avec des personnes qui ne venaient pas d'un bagage formel en statistique, et où l'accent sur l'importance statistique (et pratique) est fortement mis sur la valeur p . J'ai appris à inclure et à souligner la taille des effets dans mes analyses car il y a une différence entre la signification statistique et la signification pratique.
Généralement, les gens avec qui je travaillais se souciaient d'une chose "notre programme / fonctionnalité a-t-il un impact et un impact, oui ou non?". Pour une question comme celle-ci, vous pouvez faire quelque chose d'aussi simple qu'un test t et leur signaler "oui, votre programme / fonctionnalité fait la différence". Mais quelle est la taille de cette "différence"?
Tout d'abord, avant de commencer à approfondir ce sujet, je voudrais résumer ce à quoi nous nous référons lorsque nous parlons de la taille des effets
C'est la taille de l'effet, stupide: quelle est la taille de l'effet et pourquoi elle est importante
Et pour corroborer les commentaires de @ DarrenJames concernant les grands échantillons
Utilisation de la taille de l'effet - ou pourquoi la valeur P n'est pas suffisante
Signaler à la fois la valeur P et la taille des effets
Maintenant, pour répondre à la question, les tailles d'effet sont-elles supérieures aux valeurs de p ? Je dirais que ceux-ci servent chacun de composantes importantes dans l'analyse statistique qui ne peuvent pas être comparées en de tels termes et doivent être rapportées ensemble. La valeur de p est une statistique pour indiquer la signification statistique (différence par rapport à la distribution nulle), où la taille de l'effet met en mots combien il y a de différence.
Par exemple, disons que votre superviseur, Bob, qui n'est pas très sensible aux statistiques, souhaite voir s'il existe une relation significative entre le poids (poids) et le mpg (miles par gallon). Vous commencez l'analyse avec des hypothèses
summary
Ainsi, vous avez pu conclure que les résultats étaient statistiquement significatifs et communiquer la signification en termes pratiques.
J'espère que cela a été utile pour répondre à votre question.
la source
var.equal = TRUE
.L'utilité des tailles d'effet par rapport aux valeurs de p (ainsi que d'autres mesures de l'inférence statistique) est régulièrement débattue dans mon domaine - la psychologie - et le débat est actuellement plus «chaud» que la normale pour des raisons pertinentes pour votre question. Et même si je suis sûr que la psychologie n'est pas nécessairement le domaine scientifique le plus sophistiqué statistiquement, elle a facilement discuté, étudié - et parfois démontré - les limites de diverses approches de l'inférence statistique, ou du moins comment elles sont limitées par l'utilisation humaine. Les réponses déjà publiées contiennent de bonnes informations, mais si vous êtes intéressé par une liste (et références) plus détaillée des raisons pour et contre chacune, voir ci-dessous.
Pourquoi les valeurs p ne sont-elles pas souhaitables?
Pourquoi les tailles d'effet sont-elles souhaitables?
Notez que j'interprète votre question comme se référant spécifiquement à des tailles d'effet standardisées, car vous dites qu'elles permettent aux chercheurs de transformer leurs résultats «EN UNE MÉTRIQUE COMMUNE».
Pourquoi les valeurs p sont-elles souhaitables?
Bien qu'elles soient moins fréquemment adoptées, les valeurs de p ont un certain nombre d'avantages. Certains sont bien connus et de longue date, tandis que d'autres sont relativement nouveaux.
Les valeurs P fournissent un indice pratique et familier de la force des preuves par rapport à l'hypothèse nulle du modèle statistique.
Lorsqu'elles sont calculées correctement, les valeurs p fournissent un moyen de prendre des décisions dichotomiques (qui sont parfois nécessaires), et les valeurs p aident à maintenir les taux d'erreur faux positifs à long terme à un niveau acceptable (Dienes, 2008; Sakaluk, 2016) [It n'est pas strictement correct de dire que les valeurs P sont requises pour les décisions dichotomiques. Ils sont en effet largement utilisés de cette façon, mais Neyman & Pearson a utilisé des «régions critiques» dans l'espace statistique de test à cette fin. Voir cette question et ses réponses]
Pourquoi les tailles d'effet sont-elles indésirables (ou surévaluées)?
Peut-être la position la plus contre-intuitive pour beaucoup; pourquoi la déclaration de tailles d'effet normalisées ne serait-elle pas souhaitable ou, à tout le moins, surestimée?
Sommaire
Faisant écho à l'argument avancé par Michael Lew, les valeurs de p et les tailles d'effet ne sont que deux éléments de preuve statistique; il y en a d'autres à considérer Mais comme les valeurs de p et les tailles d'effet, d'autres mesures de la valeur probante ont également des problèmes communs et uniques. Les chercheurs appliquent et interprètent généralement mal les intervalles de confiance (par exemple, Hoekstra et al., 2014; Morey et al., 2016), par exemple, et les résultats des analyses bayésiennes peuvent être déformés par les chercheurs, tout comme lorsqu'ils utilisent des valeurs de p (par exemple, Simonsohn , 2014).
Toutes les métriques de preuves ont gagné et tous doivent avoir des prix.
Les références
Association Américaine de Psychologie. (2010). Manuel de publication de l'American Psychological Association (6e édition). Washington, DC: Association américaine de psychologie.
Baguley, T. (2009). Taille d'effet standardisée ou simple: que faut-il signaler?. British Journal of Psychology, 100 (3), 603-617.
Bakker, M. et Wicherts, JM (2011). Le (mauvais) rapport des résultats statistiques dans les revues de psychologie. Méthodes de recherche sur le comportement, 43 (3), 666-678.
Borenstein, M., Hedges, LV, Higgins, J., & Rothstein, HR (2009). Introduction à la méta-analyse. West Sussex, Royaume-Uni: John Wiley & Sons, Ltd.
Carter, EC, Schönbrodt, FD, Gervais, WM et Hilgard, J. (2017, 12 août). Corriger les biais en psychologie: une comparaison des méthodes méta-analytiques. Récupéré de osf.io/preprints/psyarxiv/9h3nu
Chan, ME et Arvey, RD (2012). Méta-analyse et développement des connaissances. Perspectives on Psychological Science, 7 (1), 79-92.
Cohen, J. (1992). Un apprêt puissant. Bulletin psychologique, 112 (1), 155-159.
Cumming, G. (2008). Réplication et intervalles p: les valeurs p ne prédisent que vaguement l'avenir, mais les intervalles de confiance font bien mieux. Perspectives on Psychological Science, 3, 286–300.
Dienes, D. (2008). Comprendre la psychologie en tant que science: introduction à l'inférence scientifique et statistique. New York, NY: Palgrave MacMillan.
Fanelli, D. (2010). Les résultats «positifs» augmentent la hiérarchie des sciences. PloS one, 5 (4), e10068.
Gelman, A. et Stern, H. (2006). La différence entre «significatif» et «non significatif» n'est pas elle-même statistiquement significative. The American Statistician, 60 (4), 328-331.
Gøtzsche, PC, Hróbjartsson, A., Marić, K. et Tendal, B. (2007). Erreurs d'extraction de données dans les méta-analyses qui utilisent des différences moyennes normalisées. JAMA, 298 (4), 430-437.
Groenland, S., Schlesselman, JJ, & Criqui, MH (1986). L'illusion d'utiliser des coefficients de régression et des corrélations normalisés comme mesures de l'effet. American Journal of Epidemiology, 123 (2), 203-208.
Hoekstra, R., Morey, RD, Rouder, JN et Wagenmakers, EJ (2014). Interprétation erronée robuste des intervalles de confiance. Bulletin et revue psychonomiques, 21 (5), 1157-1164.
John, LK, Loewenstein, G., et Prelec, D. (2012). Mesurer la prévalence de pratiques de recherche douteuses avec des incitations à dire la vérité. PsychologicalSscience, 23 (5), 524-532.
Kirk, RE (2003). L'importance de l'ampleur de l'effet. Dans SF Davis (Ed.), Handbook of research methods in experimental psychology (pp. 83-105). Malden, MA: Blackwell.
Lakens, D. (2014). Réalisation efficace d'études de grande puissance avec des analyses séquentielles. Journal européen de psychologie sociale, 44 (7), 701-710.
Levine, TR et Hullett, CR (2002). Eta au carré, eta au carré partiel et mauvaise déclaration de la taille de l'effet dans la recherche en communication. Recherche en communication humaine, 28 (4), 612-625.
Maxwell, SE (2004). La persistance d'études sous-performantes en recherche psychologique: causes, conséquences et remèdes. Méthodes psychologiques, 9 (2), 147.
Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD et Wagenmakers, EJ (2016). L'erreur de placer la confiance dans les intervalles de confiance. Bulletin et revue psychonomiques, 23 (1), 103-123.
Nosek, BA, Spies, JR et Motyl, M. (2012). Utopie scientifique: II. Incitations et pratiques de restructuration pour promouvoir la vérité au détriment de la publication. Perspectives on Psychological Science, 7 (6), 615-631.
Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, S., & Wicherts, JM (2016). La prévalence des erreurs de déclaration statistique en psychologie (1985-2013). Méthodes de recherche sur le comportement, 48 (4), 1205-1226.
Rosenthal, R. (1979). Le problème du tiroir de fichiers et la tolérance pour les résultats nuls. Bulletin psychologique, 86 (3), 638-641.
Sakaluk, JK (2016). Explorer petit, confirmer grand: Un système alternatif aux nouvelles statistiques pour faire avancer la recherche psychologique cumulative et reproductible. Journal of Experimental Social Psychology, 66, 47-54.
Schimmack, U. (2014). Quantifier l'intégrité de la recherche statistique: l'indice de réplicabilité. Récupéré de http://www.r-index.org
Schmidt, FL et Hunter, JE (1997). Huit objections courantes mais fausses à l'interruption des tests de signification dans l'analyse des données de recherche. Dans LL Harlow, SA Mulaik et JH Steiger (éd.), Que faire s'il n'y avait pas de tests de signification? (p. 37–64). Mahwah, NJ: Erlbaum.
Schönbrodt, FD (2015). p-checker: Analyseur de valeur p un pour tous. Récupéré de http://shinyapps.org/apps/p-checker/ .
Simmons, JP, Nelson, LD et Simonsohn, U. (2011). Psychologie faussement positive: la flexibilité non divulguée dans la collecte et l'analyse des données permet de présenter tout ce qui est significatif. Psychological science, 22 (11), 1359-1366.
Simonsohn, U. (2013). La folie d'alimenter les réplications en fonction de la taille de l'effet observé. Extrait de http://datacolada.org/4
Simonsohn, U. (2014). Piratage postérieur. Extrait de http://datacolada.org/13 .
Simonsohn, U., Nelson, LD et Simmons, JP (2014). Courbe en P: une clé pour le tiroir de fichiers. Journal of Experimental Psychology: General, 143 (2), 534-547.
Simonsohn, U., Nelson, LD et Simmons, JP (2014). Courbe P et taille de l'effet: correction du biais de publication en utilisant uniquement des résultats significatifs. Perspectives on Psychological Science, 9 (6), 666-681.
Wicherts, JM, Bakker, M. et Molenaar, D. (2011). La volonté de partager les données de recherche est liée à la force des preuves et à la qualité de la communication des résultats statistiques. PloS one, 6 (11), e26828.
la source
Du point de vue d'un épidémiologiste, pourquoi je préfère les tailles d'effet aux valeurs de p (bien que comme certaines personnes l'ont noté, c'est quelque chose d'une fausse dichotomie):
la source