Qu'est-ce que la taille d'effet… et pourquoi est-elle même utile?

18

J'ai une formation en statistiques de niveau universitaire (supposons que je connaisse les statistiques mathématiques et les probabilités au premier cycle (par exemple, Wackerly et al., Ross 'Probability), et j'ai une certaine connaissance de la théorie des mesures).

J'ai récemment commencé un travail de conception expérimentale et de rapports statistiques dans les statistiques de l'éducation, et j'ai été placé sur un projet où j'évalue essentiellement les mesures de responsabilisation pour les écoles et dois analyser les données, proposer des changements, etc. Notez que je suis le seul un dans mon département avec une formation en statistique mathématique.

Dans ma position, les gens ont fortement suggéré d'utiliser la taille de l'effet pour mesurer l'efficacité des programmes. La seule fois où j'ai entendu parler de la taille de l'effet, c'est de la part de mon ami, qui a étudié la psychologie. Mon impression est que

Effect Size=Difference of MeansStandard Deviation.

Qu'est-ce qui est si utile à propos de cette mesure par rapport aux tests d'hypothèse traditionnels, et pourquoi devrais-je m'en soucier? Pour moi, cela ne ressemble à rien de plus qu'une statistique de test pour un test deux échantillons . Je ne vois pas cela du tout utile à part peut-être tout mettre sur la même échelle (c'est pourquoi tout le monde "normalise" quoi que ce soit), mais je pensais que les statistiques de test (ce qui me semble être la taille de l'effet) étaient démodées et les valeurs sont préférées.ptp

Clarinettiste
la source
Je suis un peu troublé par "les antécédents en statistiques de niveau universitaire"; les deux premiers termes semblent se contredire. Pouvez-vous préciser ce que cela comprend? Est-ce quelque chose comme le début des statistiques de deuxième cycle ou autre chose?
Glen_b -Reinstate Monica
2
@Glen_b Oui, il commence des statistiques de niveau supérieur. Supposons que je connaisse les statistiques mathématiques et les probabilités au premier cycle (par exemple, Wackerly et al., Probabilité de Ross) et que je possède une certaine connaissance de la théorie des mesures.
Clarinettiste
3
Je peux sympathiser, OP. Issu d'un milieu mathématique / statistique, il était souvent déconcertant de discuter des statistiques avec ceux qui ont suivi des programmes de doctorat en sociologie ou en psychologie, car ils ont des termes différents pour tout :) et ont parfois des idées rigides sur la façon exacte de faire les choses, que ce soit la meilleure pratique statistique, par exemple essayer de convaincre un réviseur / éditeur obstiné que la modélisation d'équations structurelles n'est pas la solution à tous les problèmes, ou que la linéarité n'est pas toujours une bonne hypothèse! Cependant, j'ai appris à bien fusionner avec cette communauté, après plusieurs années!
CrockGill

Réponses:

20

C'est une mesure de la taille de l'effet, mais il y en a beaucoup d' autres. Ce n'est certainement pas la statistique du test . Votre mesure de la taille de l'effet est souvent appelée d de Cohen (à proprement parler, elle n'est correcte que si la SD est estimée via MLE, c'est-à-dire sans la correction de Bessel ); de façon plus générique, on parle de «différence moyenne normalisée». Cela rendra peut-être plus clair que t d : dtt
Autrement dit, le "/

=X¯2-X¯1St=X¯2-X¯1SEt=X¯2-X¯1SN
"est absent de la formule de la différence moyenne normalisée. /N

0NpN

gung - Réintégrer Monica
la source
15

Je m'attends à ce que quelqu'un ayant une formation dans un domaine plus pertinent (psychologie ou éducation, par exemple) se lance avec une meilleure réponse, mais je vais essayer.

" Taille d'effet " est un terme avec plus d'une signification - qui a mené de nombreuses années à des conversations confuses jusqu'à ce que j'en arrive finalement à cette réalisation. Ici, nous avons clairement affaire à la version mise à l'échelle pour l'écart-type ("par combien d'écarts-types cela a-t-il changé?")

Une partie de la raison pour laquelle on examine ce type de «taille d'effet» dans les domaines dans lesquels ils sont courants est qu'ils ont souvent des variables dont les valeurs particulières ne sont pas intrinsèquement significatives mais sont conçues pour tenter de mesurer quelque chose sous-jacent difficile à obtenir. à.

Par exemple, imaginez que vous essayez de mesurer la satisfaction au travail (peut-être pour un modèle qui le relie à un ensemble de variables indépendantes, y compris peut-être un traitement d'intérêt, par exemple). Vous n'avez aucun moyen d'y accéder directement, mais vous pouvez (par exemple) essayer de construire un questionnaire pour en aborder différents aspects, peut-être en utilisant quelque chose comme une échelle de Likert.

Un chercheur différent peut avoir une approche différente pour mesurer la satisfaction au travail, et donc vos deux ensembles de mesures de "satisfaction" ne sont pas directement comparables - mais s'ils ont les différentes formes de validité et ainsi de suite que ces choses soient vérifiées (de sorte que ils peuvent raisonnablement mesurer la satisfaction), alors on peut espérer qu'ils auront des tailles d'effet très similaires; au moins, la taille de l'effet sera plus comparable.

Glen_b -Reinstate Monica
la source
3
fait un très bon travail pour introduire l'idée d'une «construction» sans détails techniques. Mais dans votre travail, clarinettiste, vous devrez comprendre cette idée en profondeur. Je recommande fortement la source originale sur la «validité de construction», l'article de Cronbach et Meehl de 1955 dans le Psychological Bulletin: psych.colorado.edu/~willcutt/pdfs/Cronbach_1955.pdf
David C. Norris
7

La formule ci-dessus est la façon dont vous calculez le d de Cohen pour les échantillons liés (ce qui est probablement ce que vous avez?), S'ils ne sont pas liés, vous pouvez utiliser la variance groupée à la place. Il existe différentes statistiques qui vous renseigneront sur la taille de l'effet, mais le d de Cohen est une mesure normalisée qui peut varier entre 0 et 3. Si vous avez beaucoup de variables différentes, il peut être agréable d'avoir une mesure normalisée lorsque vous pensez à tous ensemble. D'un autre côté, de nombreuses personnes préfèrent comprendre la taille de l'effet en termes d'unités mesurées. Pourquoi calculer d alors que vous avez déjà des valeurs p? Voici un exemple d'un ensemble de données avec lequel je travaille actuellement. Je regarde une intervention comportementale menée dans les écoles, mesurée à l'aide de questionnaires psychologiques validés (production de données Likert). Presque toutes mes variables montrent un changement statistiquement significatif, ce qui n'est peut-être pas surprenant car j'ai un grand échantillon (n = ~ 250). Cependant, pour certaines des variables, le d de Cohenest tout à fait minime, disons 0,12, ce qui indique que même s'il y a certainement des changements, ce n'est peut-être pas un changement cliniquement important et c'est donc important pour la discussion et l'interprétation de ce qui se passe dans les données. Ce concept est largement utilisé en psychologie et en sciences de la santé où les praticiens (ou les écoles, dans votre cas) doivent considérer l'utilité clinique réelle des traitements (ou quoi qu'ils expérimentent). Le d de Cohen nous aide à répondre aux questions de savoir si cela vaut vraiment la peine de faire une intervention (indépendamment des valeurs de p). En sciences médicales, ils aiment également considérer le NNT , et évaluer cela en termes de gravité de la condition en question. Jetez un œil à cette excellente ressource de @krstoffr http://rpsychologist.com/d3/cohend/

jUST1N3
la source
2

tn

p

CrockGill
la source
2

En fait, les valeurs p sont désormais enfin «démodées»: http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . Null tests de signification des hypothèses (NHST) produit un peu plus d'une description de votre taille de l' échantillon. (*) Toute intervention expérimentale aura un certain effet, ce qui est de dire que l'hypothèse simple nulle de « aucun effet » est toujours faux au sens strict . Par conséquent, un test «non significatif» signifie simplement que la taille de votre échantillon n'était pas assez grande; un test «significatif» signifie que vous avez collecté suffisamment de données pour «trouver» quelque chose.

La «taille d'effet» représente une tentative pour y remédier, en introduisant une mesure à l'échelle naturelle du problème. En médecine, où les traitements ont toujours un certain effet (même s'il s'agit d'un effet placebo), la notion d '«effet cliniquement significatif» est introduite pour se prémunir contre la probabilité préalable de 50% qu'un «traitement» se révèle avoir «a ( statistiquement) effet positif significatif »(bien que minuscule) dans une étude arbitrairement grande.

Si je comprends la nature de votre travail, clarinettiste, alors à la fin de la journée, son objectif légitime est d'informer les actions / interventions qui améliorent l'éducation dans les écoles de votre ressort. Ainsi, votre cadre est une décision-théorique , et les méthodes bayésiennes sont l' approche la plus appropriée (et uniquement cohérente [1] ).

En effet, la meilleure façon de comprendre les méthodes fréquentistes est approximations des méthodes bayésiennes . La taille estimée de l'effet peut être comprise comme visant une mesure de centralité pour la distribution postérieure bayésienne , tandis que la valeur p peut être comprise comme visant à mesurer une queue de cette position postérieure. Ainsi, ensemble, ces deux quantités contiennent une idée approximative de la partie postérieure bayésienne qui constitue l'apport naturel à une perspective théorique de décision sur votre problème. (Alternativement, un intervalle de confiance fréquentiste sur la taille de l'effet peut également être compris comme un intervalle crédible en attente .)

Dans les domaines de la psychologie et de l'éducation, les méthodes bayésiennes sont en fait assez populaires. Une des raisons à cela est qu'il est facile d'installer des «constructions» dans les modèles bayésiens, en tant que variables latentes. Vous aimerez peut-être consulter «le livre des chiots» de John K. Kruschke , un psychologue. Dans l'enseignement (où vous avez des élèves nichés dans des salles de classe, nichés dans des écoles, nichés dans des quartiers, ...), la modélisation hiérarchique est incontournable. Et les modèles bayésiens sont également parfaits pour la modélisation hiérarchique. Sur ce compte, vous voudrez peut-être consulter Gelman & Hill [2].

[1]: Robert, Christian P. The Bayesian Choice: From Decision-Theoretic Foundations to Computational Implementation. 2e éd. Textes Springer en statistiques. New York: Springer, 2007.

[2]: Gelman, Andrew et Jennifer Hill. Analyse des données à l'aide de modèles de régression et multiniveaux / hiérarchiques. Méthodes analytiques pour la recherche sociale. Cambridge; New York: Cambridge University Press, 2007.


Pour en savoir plus sur la «cohérence» d'un ne vous bat pas nécessairement la tête avec une brique bayésienne , voir [3].

[3]: Robins, James et Larry Wasserman. «Conditionnement, vraisemblance et cohérence: une revue de certains concepts fondamentaux». Journal de l'American Statistical Association 95, no. 452 (1er décembre 2000): 1340–46. doi: 10.1080 / 01621459.2000.10474344.

(*) Dans [4], Meehl fouette NHST de façon beaucoup plus élégante, mais non moins abrasive, que moi:

Étant donné que l'hypothèse nulle est presque toujours fausse, les tableaux résumant la recherche en termes de modèles de «différences significatives» ne sont guère plus que des résultats complexes, causalement ininterprétables, des fonctions de puissance statistique.

[4]: Meehl, Paul E. «Risques théoriques et astérisques tabulaires: Sir Karl, Sir Ronald et le lent progrès de la psychologie douce». Journal of Consulting and Clinical Psychiatry 46 (1978): 806–34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf


Et voici une citation connexe de Tukey: /stats//a/728/41404

David C. Norris
la source
1
" Toute intervention expérimentale aura un certain effet" (je souligne) est une affirmation assez forte, tout comme le "toujours" suivant. Dans certains domaines d'études, c'est probablement une excellente règle de base, mais je pense qu'il y a des dangers à être trop généraliste. Je dirais également que «[NHST] ne produit guère plus qu'une description de la taille de votre échantillon» est discutable: la valeur p émerge d'une interaction entre à la fois la taille de l'échantillon et la taille de l'effet.
Silverfish
@Silverfish, merci pour votre réponse. Je vous invite à fournir un exemple où ma perspective sur les valeurs p serait «dangereuse». (BTW, j'en avais mis quelques-uns en italique, et utilisé l'expression "au sens strict" en prévision d'une plainte comme la vôtre. Ma réclamation est toujours valable.) En outre, bien que la valeur p "émerge effectivement d'une interaction" de deux autres facteurs, l'un d'entre eux (taille de l'échantillon) est en grande partie un paramètre de conception libre, choisi arbitrairement. Ce choix arbitraire reflète donc la valeur de p. Deux chiffres sont clairement nécessaires; pourquoi pas les points limites d'un intervalle de confiance?
David C.Norris
2
À titre d'exemple: tout cas où nous pourrions raisonnablement nous attendre à ce que l'hypothèse nulle soit vraie, ou du moins où nous ne pourrions pas affirmer d'emblée que nous sommes certains qu'elle est fausse sans même prendre la peine de mener une expérience ou de regarder les données. Tous les nulls ne sont pas faux: pensez à la recherche en parapsychologie, comme la télépathie et les expériences de précognition, mais de nombreux nulls sont vrais dans des domaines que vous pourriez considérer plus «scientifiquement valides» comme la génomique.
Silverfish
5
-1, il y a beaucoup de problèmes ici, OMI. Le fait qu'une seule revue de psychologie mineure ait interdit les valeurs p ne signifie pas que «les valeurs p sont désormais« démodées »». L'interdiction a été largement critiquée (y compris une déclaration polie de l'ASA et n'a été reprise par aucun autre journal au cours des derniers mois. Je note que le journal ne nécessite pas de passer aux méthodes bayésiennes (ce que je suppose être votre préférence) , mais n'en tiendra compte qu'au cas par cas.
gung - Réintègre Monica
3
Cependant, dans une véritable expérience, le processus de randomisation des unités rompt les voies endogènes offrant un test de voie causale directe de X à Y. C'est une étrange affirmation métaphysique d'affirmer que toutes les variables sont directement liées de façon causale dans les deux directions, mais si vous ne le maintenez pas, il est incohérent de prétendre que «l'hypothèse nulle de« pas d'effet »est toujours fausse».
gung - Rétablir Monica