Les tailles d'effet sont-elles vraiment supérieures aux valeurs de p?

14

Beaucoup d'accent est mis sur la fiabilité et la communication des tailles d'effet plutôt que sur les valeurs p dans la recherche appliquée (par exemple, citations plus loin ci-dessous).

Mais n'est-il pas vrai qu'une taille d'effet, tout comme une valeur de p, est une variable aléatoire et, en tant que telle, peut varier d'un échantillon à l'autre lorsque la même expérience est répétée? En d'autres termes, je demande quelles caractéristiques statistiques (par exemple, la taille de l'effet est moins variable d'un échantillon à l'autre que la valeur p) font que la taille de l'effet est un meilleur indice de mesure des preuves que les valeurs p?

Je dois cependant mentionner un fait important qui sépare une valeur de p d'une taille d'effet. Autrement dit, une taille d'effet est quelque chose à estimer car elle a un paramètre de population, mais une valeur p n'est rien à estimer car elle n'a pas de paramètre de population.

Pour moi, la taille de l'effet est simplement une métrique qui, dans certains domaines de recherche (par exemple, la recherche humaine), aide à transformer les résultats empiriques provenant de divers outils de mesure développés par les chercheurs en une métrique commune (il est juste de dire que l'utilisation de cette métrique de la recherche humaine peut mieux s'adapter le club de recherche quant).

Peut-être que si nous prenons une proportion simple comme taille d'effet, ce qui suit (en R) est ce qui montre la suprématie des tailles d'effet sur les valeurs de p? (La valeur de p change mais pas la taille de l'effet)

binom.test(55, 100, .5)  ## p-value = 0.3682  ## proportion of success 55% 

binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%

Notez que la plupart des tailles d'effet sont liées linéairement à une statistique de test. Ainsi, il est facile de faire des tests d'hypothèse nulle en utilisant des tailles d'effet.

Par exemple, la statistique t résultant d'une conception pré-post peut facilement être convertie en une taille d'effet d de Cohen correspondante. En tant que telle, la distribution du d de Cohen est simplement la version à l' échelle de l'emplacement de at distribution.

Les citations:

Parce que les valeurs p sont des indices confondus, en théorie, 100 études avec des tailles d'échantillon variables et 100 tailles d'effet différentes pourraient chacune avoir la même valeur p unique, et 100 études avec la même taille d'effet unique pourraient chacune avoir 100 valeurs différentes pour la valeur p .

ou

La valeur de p est une variable aléatoire qui varie d'un échantillon à l'autre. . . . Par conséquent, il n'est pas approprié de comparer les valeurs de p de deux expériences distinctes, ou de tests sur deux variables mesurées dans la même expérience, et de déclarer que l'une est plus significative que l'autre?

Citations:

Thompson, B. (2006). Fondements des statistiques comportementales: une approche basée sur les connaissances. New York, NY: Guilford Press.

Bon, PI et Hardin, JW (2003). Erreurs courantes dans les statistiques (et comment les éviter). New York: Wiley.

rnorouzian
la source
12
Je ne tire pas les mêmes conclusions des citations (que les tailles d'effet sont "supérieures" ou doivent être rapportées à la place des valeurs de p). Je suis conscient que certaines personnes ont réagi de manière excessive en faisant de telles déclarations (comme l'interdiction BASP des valeurs p). Ce n'est pas l'un ou l'autre: il s'agit de souligner que les valeurs de p et les tailles d'effet donnent différents types d'informations utiles. Normalement, l'un ne doit pas être examiné sans le considérer dans le contexte de l'autre.
whuber
1
Je pense personnellement que rapporter une estimation avec un intervalle de confiance est suffisant. Il donne simultanément la taille de l'effet (signification pratique) et le test d'hypothèse (signification statistique).
Jirapat Samranvedhya
1
Que les valeurs de p ou les tailles d'effet soient «supérieures» dépend de votre point de vue. Le premier découle de la tradition du NHST des pêcheurs, tandis que le second de la tradition Neyman-Pearson. Dans certains domaines (sciences biologiques, sciences humaines), la taille des effets a tendance à être très petite, ce qui rend les valeurs de p attrayantes. Inversement, comme d'autres le notent, les valeurs de p peuvent être «forcées» plus petites par des changements de conception, comme une augmentation de N.
HEITZ
3
Un tournevis est-il supérieur à un marteau?
kjetil b halvorsen
Un écrou est-il supérieur à un boulon?
Sextus Empiricus

Réponses:

21

Le conseil de fournir des tailles d'effet plutôt que des valeurs P est basé sur une fausse dichotomie et est idiot. Pourquoi ne pas présenter les deux?

Les conclusions scientifiques devraient être basées sur une évaluation rationnelle des preuves et de la théorie disponibles. Les valeurs de p et les tailles d'effet observées seules ou ensemble ne suffisent pas.

Aucun des passages cités que vous fournissez n'est utile. Bien sûr, les valeurs P varient d'une expérience à l'autre, la force des preuves dans les données varie d'une expérience à l'autre. La valeur P n'est qu'une extraction numérique de ces preuves au moyen du modèle statistique. Compte tenu de la nature de la valeur P, il est très rarement pertinent à des fins analytiques de comparer une valeur P avec une autre, c'est peut-être ce que l'auteur de la citation essaie de transmettre.

Si vous souhaitez comparer des valeurs de P, vous auriez probablement dû effectuer un test de signification sur une autre disposition des données afin de répondre de manière sensible à la question d'intérêt. Voir ces questions: p-values ​​pour p-values? et Si la moyenne d'un groupe diffère de zéro mais pas l'autre, peut-on conclure que les groupes sont différents?

La réponse à votre question est donc complexe. Je ne trouve pas utiles les réponses dichotomiques aux données basées sur les valeurs P ou les tailles d'effet. Les tailles d'effet sont-elles donc supérieures aux valeurs P? Oui, non, parfois, peut-être, et cela dépend de votre objectif.

Michael Lew
la source
Je pense qu'il serait préférable de présenter la taille de l'effet et son intervalle de confiance, à condition que l'analyste soit correctement en mesure d'indiquer ce qu'est une taille d'effet significative pour l'étude en cours. L'intervalle de confiance, contrairement à la valeur de p, donne au lecteur une idée de la précision de l'estimation ainsi que de son extrémité.
AdamO
1
@AdamO Oui, je suis largement d'accord, mais la valeur P a deux choses à offrir et ne doit pas être omise. C'est un indice de la force de la preuve par rapport au nul, quelque chose qui ne peut être obtenu d'un intervalle de confiance que par un œil très expérimenté, et une valeur P exacte n'invite pas directement la dichotomie intérieur / extérieur que l'intervalle de confiance fait . Bien sûr, une fonction de vraisemblance offre des avantages par rapport aux deux.
Michael Lew
14

Dans le contexte de la recherche appliquée, les tailles d'effet sont nécessaires pour que les lecteurs interprètent la signification pratique (par opposition à la signification statistique) des résultats. En général, les valeurs de p sont beaucoup plus sensibles à la taille de l'échantillon que les tailles d'effet. Si une expérience mesure avec précision une taille d'effet (c'est-à-dire qu'elle est suffisamment proche du paramètre de population qu'elle estime) mais donne une valeur de p non significative, toutes choses étant égales par ailleurs, l'augmentation de la taille de l'échantillon se traduira par la même taille d'effet mais une valeur de p inférieure. Cela peut être démontré par des analyses de puissance ou des simulations.

À la lumière de cela, il est possible d'obtenir des valeurs de p très significatives pour des tailles d'effet qui n'ont aucune signification pratique. En revanche, les plans d'étude à faible puissance peuvent produire des valeurs de p non significatives pour des tailles d'effet d'une grande importance pratique.

Il est difficile de discuter des concepts de signification statistique vis-à-vis de la taille de l'effet sans une application spécifique dans le monde réel. À titre d'exemple, considérons une expérience qui évalue l'effet d'une nouvelle méthode d'étude sur la moyenne pondérée cumulative des élèves (GPA). Je dirais qu'une taille d'effet de 0,01 point a peu d'importance pratique (c'est-à-dire 2,50 par rapport à 2,51). En supposant un échantillon de 2 000 élèves dans les groupes de traitement et de contrôle, et un écart-type de la population de 0,5 point:

set.seed(12345)
control.data <- rnorm(n=2000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=2000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE) 

moyenne de l' échantillon de traitement = 2,51

contrôle échantillon moyenne = 2,50

taille de l'effet = 2,51 - 2,50 = 0,01

p = 0,53

L'augmentation de la taille de l'échantillon à 20 000 étudiants et le maintien de tout le reste constant donne une valeur de p significative:

set.seed(12345)
control.data <- rnorm(n=20000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=20000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE)  

moyenne de l' échantillon de traitement = 2,51

contrôle échantillon moyenne = 2,50

taille de l'effet = 2,51 - 2,50 = 0,01

p = 0,044

Évidemment, il n'est pas anodin d'augmenter la taille de l'échantillon d'un ordre de grandeur! Cependant, je pense que nous pouvons tous convenir que l'amélioration pratique offerte par cette méthode d'étude est négligeable. Si nous nous appuyions uniquement sur la valeur de p, nous pourrions croire le contraire dans le cas n = 20 000.

Personnellement, je préconise de rapporter à la fois les valeurs de p et les tailles d'effet. Et des points bonus pour les statistiques t ou F, les degrés de liberté et les diagnostics de modèle!

Darren James
la source
2
Darren, montre ce que tu veux dire exactement dans R ou quelque chose comme PO.
user138773
7
@Darrent James Il n'y a aucune importance pratique dans une différence entre p = 0,065 et p = 0,043 au-delà de l'hypothèse malheureuse que p = 0,05 est une ligne claire qui doit être respectée. Aucune des valeurs P ne représente une preuve convaincante pour ou contre quoi que ce soit en soi.
Michael Lew
@Michael Lew Oui, je suis d'accord!
Darren James
1
James, étant donné votre code et vos explications, vous semblez avoir complètement mal compris le point du PO. Votre code R est également erroné! Parce que vous n'avez PAS réglé le var.equal = TRUEalors que vos sds sont égaux. Avec un tel contexte, je ne sais pas pourquoi vous avez même posté une réponse comme celle-ci. OP pose une question qui n'a pas de réponse facile au moins à l'heure actuelle!
user138773
1
J'ai ajouté var.equal = TRUE au code. Mais c'est inutile dans ce cas. Les mêmes valeurs de p sont obtenues avec var.equal = TRUE et le var.equal = FALSE par défaut.
Darren James
5

Je travaille actuellement dans le domaine de la science des données et avant cela, je travaillais dans la recherche en éducation. Pendant chaque "carrière", j'ai collaboré avec des personnes qui ne venaient pas d'un bagage formel en statistique, et où l'accent sur l'importance statistique (et pratique) est fortement mis sur la valeur p . J'ai appris à inclure et à souligner la taille des effets dans mes analyses car il y a une différence entre la signification statistique et la signification pratique.

Généralement, les gens avec qui je travaillais se souciaient d'une chose "notre programme / fonctionnalité a-t-il un impact et un impact, oui ou non?". Pour une question comme celle-ci, vous pouvez faire quelque chose d'aussi simple qu'un test t et leur signaler "oui, votre programme / fonctionnalité fait la différence". Mais quelle est la taille de cette "différence"?

Tout d'abord, avant de commencer à approfondir ce sujet, je voudrais résumer ce à quoi nous nous référons lorsque nous parlons de la taille des effets

La taille de l'effet est simplement un moyen de quantifier la taille de la différence entre deux groupes. [...] Il est particulièrement utile pour quantifier l'efficacité d'une intervention particulière, par rapport à une comparaison. Cela nous permet d'aller au-delà du simpliste, "ça marche ou pas?" à la plus sophistiquée, «Comment cela fonctionne-t-il dans une variété de contextes? De plus, en mettant l'accent sur l'aspect le plus important d'une intervention - la taille de l'effet - plutôt que sur sa signification statistique (qui confond la taille de l'effet et la taille de l'échantillon), il favorise une approche plus scientifique de l'accumulation des connaissances. Pour ces raisons, la taille de l'effet est un outil important pour rendre compte et interpréter l'efficacité.

C'est la taille de l'effet, stupide: quelle est la taille de l'effet et pourquoi elle est importante

α

Pourquoi la valeur P n'est-elle pas suffisante?

La signification statistique est la probabilité que la différence observée entre deux groupes soit due au hasard. Si la valeur P est supérieure au niveau alpha choisi (par exemple, 0,05), toute différence observée est supposée être expliquée par la variabilité d'échantillonnage. Avec un échantillon suffisamment grand, un test statistique montrera presque toujours une différence significative, à moins qu'il n'y ait aucun effet, c'est-à-dire lorsque la taille de l'effet est exactement nulle; pourtant de très petites différences, même si elles sont importantes, sont souvent dénuées de sens. Ainsi, le fait de déclarer uniquement la valeur P significative pour une analyse n'est pas suffisant pour que les lecteurs comprennent pleinement les résultats.

Et pour corroborer les commentaires de @ DarrenJames concernant les grands échantillons

Par exemple, si la taille d'un échantillon est de 10 000, une valeur P significative est susceptible d'être trouvée même lorsque la différence de résultats entre les groupes est négligeable et peut ne pas justifier une intervention coûteuse ou longue par rapport à une autre. Le niveau de signification ne prédit pas en soi la taille de l'effet. Contrairement aux tests de signification, la taille de l'effet est indépendante de la taille de l'échantillon. La signification statistique, en revanche, dépend à la fois de la taille de l'échantillon et de la taille de l'effet. Pour cette raison, les valeurs de P sont considérées comme confondues en raison de leur dépendance à la taille de l'échantillon. Parfois, un résultat statistiquement significatif signifie seulement qu'une énorme taille d'échantillon a été utilisée. [Il y a une opinion erronée que ce comportement représente un biais contre l'hypothèse nulle.Pourquoi le test d'hypothèse fréquentiste devient-il biaisé pour rejeter l'hypothèse nulle avec des échantillons suffisamment grands? ]

Utilisation de la taille de l'effet - ou pourquoi la valeur P n'est pas suffisante

Signaler à la fois la valeur P et la taille des effets

Maintenant, pour répondre à la question, les tailles d'effet sont-elles supérieures aux valeurs de p ? Je dirais que ceux-ci servent chacun de composantes importantes dans l'analyse statistique qui ne peuvent pas être comparées en de tels termes et doivent être rapportées ensemble. La valeur de p est une statistique pour indiquer la signification statistique (différence par rapport à la distribution nulle), où la taille de l'effet met en mots combien il y a de différence.

Par exemple, disons que votre superviseur, Bob, qui n'est pas très sensible aux statistiques, souhaite voir s'il existe une relation significative entre le poids (poids) et le mpg (miles par gallon). Vous commencez l'analyse avec des hypothèses

H0:βmpg=0 contre HUNE:βmpg0

α=0,05

> data("mtcars")
> 
> fit = lm(formula = mpg ~ wt, data = mtcars)
> 
> summary(fit)

Call:
lm(formula = mpg ~ wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.5432 -2.3647 -0.1252  1.4096  6.8727 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
wt           -5.3445     0.5591  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.046 on 30 degrees of freedom
Multiple R-squared:  0.7528,    Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

summaryβmpg0

Ainsi, vous avez pu conclure que les résultats étaient statistiquement significatifs et communiquer la signification en termes pratiques.

J'espère que cela a été utile pour répondre à votre question.

Jon
la source
Jon, merci, il y a BEAUCOUP de zones grises dont j'espérais en savoir plus, mais je ne l'ai pas fait. Dans de nombreuses situations, les tailles d'effet et les valeurs de p ne sont pas d'accord. Beaucoup font confiance à la taille des effets dans de telles situations et je voulais savoir pourquoi. J'espérais en savoir plus sur les simulations qui pourraient montrer des points importants. En ce qui concerne la question que vous avez soulevée, c'est-à-dire que la taille de l'effet peut être minuscule mais pas exactement nulle; des méthodes de tests d'équivalence sont en place depuis plusieurs années. J'aime encore plus les tests d'équivalence bayésienne. Quoi qu'il en soit, je n'ai probablement pas posé ma question assez clairement. - Merci
rnorouzian
BTW, un collègue a commenté que le code R de Daren est mauvais, il semble qu'il ait raison. Il n'a pas mis var.equal = TRUE.
rnorouzian
* Dans de nombreuses situations, les tailles d'effet et les valeurs de p ne sont pas d'accord. * - Pouvez-vous fournir plus d'informations à ce sujet? Un exemple? En ce qui concerne la question que vous avez soulevée, c'est-à-dire que la taille de l'effet peut être minuscule mais pas exactement nulle - cette situation peut entraîner une grande taille d'échantillon. Ainsi, si la taille de l'effet est presque nulle, la variable d'intérêt peut ne pas avoir d'impact significatif sur le résultat, ou la relation peut être spécifiée de manière incorrecte (par exemple linéaire vs non linéaire).
Jon
Essayez simplement cet outil . Voir également ce document . Il semble que je devrai poser une autre question ultérieurement en utilisant du code pour plus de clarté. -- Merci.
rnorouzian
@rnorouzian, d'accord, j'ai exécuté votre code. À quoi veux-tu en venir?
Jon
4

L'utilité des tailles d'effet par rapport aux valeurs de p (ainsi que d'autres mesures de l'inférence statistique) est régulièrement débattue dans mon domaine - la psychologie - et le débat est actuellement plus «chaud» que la normale pour des raisons pertinentes pour votre question. Et même si je suis sûr que la psychologie n'est pas nécessairement le domaine scientifique le plus sophistiqué statistiquement, elle a facilement discuté, étudié - et parfois démontré - les limites de diverses approches de l'inférence statistique, ou du moins comment elles sont limitées par l'utilisation humaine. Les réponses déjà publiées contiennent de bonnes informations, mais si vous êtes intéressé par une liste (et références) plus détaillée des raisons pour et contre chacune, voir ci-dessous.

Pourquoi les valeurs p ne sont-elles pas souhaitables?

  • Comme le note Darren James (et sa simulation le montre), les valeurs de p dépendent largement du nombre d'observations que vous avez (voir Kirk, 2003)
  • Comme le note Jon, les valeurs de p représentent la probabilité conditionnelle d'observer des données comme extrêmes ou plus extrêmes étant donné que l'hypothèse nulle est vraie. Comme la plupart des chercheurs préfèrent avoir des probabilités sur l'hypothèse de recherche et / ou l'hypothèse nulle, les valeurs de p ne parlent pas des probabilités qui intéressent le plus les chercheurs (c.-à-d. L'hypothèse nulle ou de recherche, voir Dienes, 2008)
  • Beaucoup de ceux qui utilisent des valeurs de p ne comprennent pas ce qu'ils veulent dire / ne veulent pas dire (Schmidt & Hunter, 1997). La référence de Michael Lew à l'article de Gelman et Stern (2006) souligne davantage les malentendus des chercheurs sur ce que l'on peut (ou ne peut pas) interpréter à partir des valeurs de p. Et comme le montre une histoire relativement récente sur FiveThirtyEight , cela continue d'être le cas.
  • Les valeurs de p ne sont pas excellentes pour prédire les valeurs de p suivantes (Cumming, 2008)
  • Les valeurs de p sont souvent mal déclarées (le plus souvent gonflant la signification), et les fausses déclarations sont liées à une réticence à partager des données (Bakker et Wicherts, 2011; Nuijten et al., 2016; Wicherts et al., 2011)
  • Les valeurs de p peuvent être (et historiquement, ont été) activement déformées grâce à la flexibilité analytique, et ne sont donc pas fiables (John et al., 2012; Simmons et al., 2011)
  • Les valeurs de p sont disproportionnellement significatives, car les systèmes universitaires semblent récompenser les scientifiques pour leur importance statistique par rapport à leur précision scientifique (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979)

Pourquoi les tailles d'effet sont-elles souhaitables?

Notez que j'interprète votre question comme se référant spécifiquement à des tailles d'effet standardisées, car vous dites qu'elles permettent aux chercheurs de transformer leurs résultats «EN UNE MÉTRIQUE COMMUNE».

  • Comme Jon et Darren James l'indiquent, la taille des effets indique l'ampleur d'un effet, indépendamment du nombre d'observations (American Psychological Association 2010; Cumming, 2014) par opposition à la prise de décisions dichotomiques quant à savoir si un effet est présent ou non.
  • Les tailles d'effet sont précieuses car elles rendent possibles les méta-analyses et les méta-analyses stimulent les connaissances cumulatives (Borenstein et al., 2009; Chan et Arvey, 2012)
  • La taille des effets aide à faciliter la planification de la taille de l'échantillon via une analyse de puissance a priori , et donc une allocation efficace des ressources dans la recherche (Cohen, 1992)

Pourquoi les valeurs p sont-elles souhaitables?

Bien qu'elles soient moins fréquemment adoptées, les valeurs de p ont un certain nombre d'avantages. Certains sont bien connus et de longue date, tandis que d'autres sont relativement nouveaux.

  • Les valeurs P fournissent un indice pratique et familier de la force des preuves par rapport à l'hypothèse nulle du modèle statistique.

  • Lorsqu'elles sont calculées correctement, les valeurs p fournissent un moyen de prendre des décisions dichotomiques (qui sont parfois nécessaires), et les valeurs p aident à maintenir les taux d'erreur faux positifs à long terme à un niveau acceptable (Dienes, 2008; Sakaluk, 2016) [It n'est pas strictement correct de dire que les valeurs P sont requises pour les décisions dichotomiques. Ils sont en effet largement utilisés de cette façon, mais Neyman & Pearson a utilisé des «régions critiques» dans l'espace statistique de test à cette fin. Voir cette question et ses réponses]

  • Les valeurs de p peuvent être utilisées pour faciliter une planification efficace de la taille de l'échantillon en continu (pas seulement une analyse de puissance unique) (Lakens, 2014)
  • Les valeurs de p peuvent être utilisées pour faciliter la méta-analyse et évaluer la valeur probante (Simonsohn et al., 2014a; Simonsohn et al., 2014b). Voir cet article de blog pour une discussion accessible sur la façon dont les distributions de valeurs de p peuvent être utilisées de cette manière, ainsi que ce post de CV pour une discussion connexe.
  • Les valeurs de p peuvent être utilisées à des fins médico-légales pour déterminer si des pratiques de recherche douteuses peuvent avoir été utilisées et comment les résultats peuvent être reproduits (Schimmack, 2014; voir également l'application de Schönbrodt, 2015)

Pourquoi les tailles d'effet sont-elles indésirables (ou surévaluées)?

Peut-être la position la plus contre-intuitive pour beaucoup; pourquoi la déclaration de tailles d'effet normalisées ne serait-elle pas souhaitable ou, à tout le moins, surestimée?

  • Dans certains cas, les tailles d'effet normalisées ne sont pas tout ce qu'elles sont censées être (par exemple, Groenland, Schlesselman et Criqui, 1986). Baguely (2009), en particulier, a une belle description de certaines des raisons pour lesquelles les tailles d'effet brutes / non standardisées peuvent être plus souhaitables.
  • Malgré leur utilité pour l'analyse de puissance a priori, les tailles d'effet ne sont pas réellement utilisées de manière fiable pour faciliter une planification efficace de la taille de l'échantillon (Maxwell, 2004)
  • Même lorsque les tailles d'effet sont utilisées dans la planification de la taille de l'échantillon, car elles sont gonflées par un biais de publication (Rosenthal, 1979) , les tailles d'effet publiées sont d'une utilité discutable pour une planification fiable de la taille de l'échantillon (Simonsohn, 2013)
  • Les estimations de la taille de l'effet peuvent être - et ont été - systématiquement mal calculées dans les logiciels statistiques (Levine et Hullet, 2002)
  • Les tailles d'effet sont extraites par erreur (et probablement mal déclarées), ce qui mine la crédibilité des méta-analyses (Gøtzsche et al., 2007)
  • Enfin, la correction du biais de publication dans la taille des effets reste inefficace (voir Carter et al., 2017), ce qui, si vous pensez qu'il existe un biais de publication, rend les méta-analyses moins impactantes.

Sommaire

Faisant écho à l'argument avancé par Michael Lew, les valeurs de p et les tailles d'effet ne sont que deux éléments de preuve statistique; il y en a d'autres à considérer Mais comme les valeurs de p et les tailles d'effet, d'autres mesures de la valeur probante ont également des problèmes communs et uniques. Les chercheurs appliquent et interprètent généralement mal les intervalles de confiance (par exemple, Hoekstra et al., 2014; Morey et al., 2016), par exemple, et les résultats des analyses bayésiennes peuvent être déformés par les chercheurs, tout comme lorsqu'ils utilisent des valeurs de p (par exemple, Simonsohn , 2014).

Toutes les métriques de preuves ont gagné et tous doivent avoir des prix.

Les références

Association Américaine de Psychologie. (2010). Manuel de publication de l'American Psychological Association (6e édition). Washington, DC: Association américaine de psychologie.

Baguley, T. (2009). Taille d'effet standardisée ou simple: que faut-il signaler?. British Journal of Psychology, 100 (3), 603-617.

Bakker, M. et Wicherts, JM (2011). Le (mauvais) rapport des résultats statistiques dans les revues de psychologie. Méthodes de recherche sur le comportement, 43 (3), 666-678.

Borenstein, M., Hedges, LV, Higgins, J., & Rothstein, HR (2009). Introduction à la méta-analyse. West Sussex, Royaume-Uni: John Wiley & Sons, Ltd.

Carter, EC, Schönbrodt, FD, Gervais, WM et Hilgard, J. (2017, 12 août). Corriger les biais en psychologie: une comparaison des méthodes méta-analytiques. Récupéré de osf.io/preprints/psyarxiv/9h3nu

Chan, ME et Arvey, RD (2012). Méta-analyse et développement des connaissances. Perspectives on Psychological Science, 7 (1), 79-92.

Cohen, J. (1992). Un apprêt puissant. Bulletin psychologique, 112 (1), 155-159. 

Cumming, G. (2008). Réplication et intervalles p: les valeurs p ne prédisent que vaguement l'avenir, mais les intervalles de confiance font bien mieux. Perspectives on Psychological Science, 3, 286–300.

Dienes, D. (2008). Comprendre la psychologie en tant que science: introduction à l'inférence scientifique et statistique. New York, NY: Palgrave MacMillan.

Fanelli, D. (2010). Les résultats «positifs» augmentent la hiérarchie des sciences. PloS one, 5 (4), e10068.

Gelman, A. et Stern, H. (2006). La différence entre «significatif» et «non significatif» n'est pas elle-même statistiquement significative. The American Statistician, 60 (4), 328-331.

Gøtzsche, PC, Hróbjartsson, A., Marić, K. et Tendal, B. (2007). Erreurs d'extraction de données dans les méta-analyses qui utilisent des différences moyennes normalisées. JAMA, 298 (4), 430-437.

Groenland, S., Schlesselman, JJ, & Criqui, MH (1986). L'illusion d'utiliser des coefficients de régression et des corrélations normalisés comme mesures de l'effet. American Journal of Epidemiology, 123 (2), 203-208.

Hoekstra, R., Morey, RD, Rouder, JN et Wagenmakers, EJ (2014). Interprétation erronée robuste des intervalles de confiance. Bulletin et revue psychonomiques, 21 (5), 1157-1164.

John, LK, Loewenstein, G., et Prelec, D. (2012). Mesurer la prévalence de pratiques de recherche douteuses avec des incitations à dire la vérité. PsychologicalSscience, 23 (5), 524-532.

Kirk, RE (2003). L'importance de l'ampleur de l'effet. Dans SF Davis (Ed.), Handbook of research methods in experimental psychology (pp. 83-105). Malden, MA: Blackwell.

Lakens, D. (2014). Réalisation efficace d'études de grande puissance avec des analyses séquentielles. Journal européen de psychologie sociale, 44 (7), 701-710.

Levine, TR et Hullett, CR (2002). Eta au carré, eta au carré partiel et mauvaise déclaration de la taille de l'effet dans la recherche en communication. Recherche en communication humaine, 28 (4), 612-625.

Maxwell, SE (2004). La persistance d'études sous-performantes en recherche psychologique: causes, conséquences et remèdes. Méthodes psychologiques, 9 (2), 147.

Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD et Wagenmakers, EJ (2016). L'erreur de placer la confiance dans les intervalles de confiance. Bulletin et revue psychonomiques, 23 (1), 103-123.

Nosek, BA, Spies, JR et Motyl, M. (2012). Utopie scientifique: II. Incitations et pratiques de restructuration pour promouvoir la vérité au détriment de la publication. Perspectives on Psychological Science, 7 (6), 615-631.

Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, ​​S., & Wicherts, JM (2016). La prévalence des erreurs de déclaration statistique en psychologie (1985-2013). Méthodes de recherche sur le comportement, 48 (4), 1205-1226.

Rosenthal, R. (1979). Le problème du tiroir de fichiers et la tolérance pour les résultats nuls. Bulletin psychologique, 86 (3), 638-641.

Sakaluk, JK (2016). Explorer petit, confirmer grand: Un système alternatif aux nouvelles statistiques pour faire avancer la recherche psychologique cumulative et reproductible. Journal of Experimental Social Psychology, 66, 47-54.

Schimmack, U. (2014). Quantifier l'intégrité de la recherche statistique: l'indice de réplicabilité. Récupéré de http://www.r-index.org 

Schmidt, FL et Hunter, JE (1997). Huit objections courantes mais fausses à l'interruption des tests de signification dans l'analyse des données de recherche. Dans LL Harlow, SA Mulaik et JH Steiger (éd.), Que faire s'il n'y avait pas de tests de signification? (p. 37–64). Mahwah, NJ: Erlbaum.

Schönbrodt, FD (2015). p-checker: Analyseur de valeur p un pour tous. Récupéré de http://shinyapps.org/apps/p-checker/

Simmons, JP, Nelson, LD et Simonsohn, U. (2011). Psychologie faussement positive: la flexibilité non divulguée dans la collecte et l'analyse des données permet de présenter tout ce qui est significatif. Psychological science, 22 (11), 1359-1366.

Simonsohn, U. (2013). La folie d'alimenter les réplications en fonction de la taille de l'effet observé. Extrait de http://datacolada.org/4

Simonsohn, U. (2014). Piratage postérieur. Extrait de http://datacolada.org/13 .

Simonsohn, U., Nelson, LD et Simmons, JP (2014). Courbe en P: une clé pour le tiroir de fichiers. Journal of Experimental Psychology: General, 143 (2), 534-547.

Simonsohn, U., Nelson, LD et Simmons, JP (2014). Courbe P et taille de l'effet: correction du biais de publication en utilisant uniquement des résultats significatifs. Perspectives on Psychological Science, 9 (6), 666-681.

Wicherts, JM, Bakker, M. et Molenaar, D. (2011). La volonté de partager les données de recherche est liée à la force des preuves et à la qualité de la communication des résultats statistiques. PloS one, 6 (11), e26828.

jsakaluk
la source
2
Très belle collection d'idées et de références. Cela devrait être utile pour ceux qui veulent creuser un peu plus, mais notez que beaucoup de points contiennent des questions et réponses pertinentes sur ce site. Des liens vers ceux-ci seraient également utiles.
Michael Lew
@MichaelLew Merci. Je verrai l'ajout de liens lorsque j'aurai le temps plus tard - il m'a fallu une bonne partie de l'après-midi pour rédiger cette réponse et assembler les références. En ce qui concerne votre montage, je pense que votre point est bien pris, mais peut-être plus d'un ajout, par opposition à une correction? J'ai dit que les valeurs de p fournissent un moyen de prendre des décisions dichotomiques (pas qu'elles soient "requises", ou la seule façon de le faire). Je suis d'accord que les régions critiques NP sont une autre façon, mais j'ai répondu à l'OP dans le contexte de ce que les valeurs de p permettent par rapport aux tailles d'effet normalisées.
jsakaluk
1
jsakaluk, oui je vois que vous auriez consacré beaucoup de temps à la réponse et elle est très utile et mérite vos efforts. J'ai édité l'article sur les avantages des valeurs P parce que vous avez écrit "Lorsqu'il est utilisé correctement", ils peuvent être dichotomisés, alors que la réalité est qu'une telle utilisation ignore une grande partie des informations codées dans la valeur P et est donc sans doute (et à mon avis) une mauvaise utilisation. Je ne voulais pas renverser votre intention et j'ai donc changé "utilisé" en "calculé".
Michael Lew
3

Du point de vue d'un épidémiologiste, pourquoi je préfère les tailles d'effet aux valeurs de p (bien que comme certaines personnes l'ont noté, c'est quelque chose d'une fausse dichotomie):

  1. La taille de l'effet me dit ce que je veux réellement, la valeur p me dit simplement si elle se distingue de null. Un risque relatif de 1.0001, 1.5, 5 et 50 pourrait tous avoir la même valeur p qui leur est associée, mais signifier des choses très différentes en termes de ce que nous pourrions avoir besoin de faire au niveau de la population.
  2. Le fait de s'appuyer sur une valeur de p renforce la notion selon laquelle le test d'hypothèse fondé sur la signification est la preuve ultime. Considérez les deux déclarations suivantes: "Les médecins souriant aux patients n'étaient pas significativement associés à un résultat défavorable pendant leur séjour à l'hôpital." vs "Les patients qui avaient leur sourire de leur médecin étaient 50% moins susceptibles d'avoir un résultat défavorable (p = 0,086)." Pourriez-vous toujours, étant donné que cela n'a absolument aucun coût, envisager de suggérer aux médecins de sourire à leurs patients?
  3. Je travaille avec de nombreux modèles de simulation stochastiques, dans lesquels la taille de l'échantillon est fonction de la puissance de calcul et de la patience, et les valeurs de p sont essentiellement dénuées de sens. J'ai réussi à obtenir des résultats p <0,05 pour des choses qui n'ont absolument aucune pertinence clinique ou de santé publique.
Fomite
la source