J'ai une formation en statistiques de niveau universitaire (supposons que je connaisse les statistiques mathématiques et les probabilités au premier cycle (par exemple, Wackerly et al., Ross 'Probability), et j'ai une certaine connaissance de la théorie des mesures).
J'ai récemment commencé un travail de conception expérimentale et de rapports statistiques dans les statistiques de l'éducation, et j'ai été placé sur un projet où j'évalue essentiellement les mesures de responsabilisation pour les écoles et dois analyser les données, proposer des changements, etc. Notez que je suis le seul un dans mon département avec une formation en statistique mathématique.
Dans ma position, les gens ont fortement suggéré d'utiliser la taille de l'effet pour mesurer l'efficacité des programmes. La seule fois où j'ai entendu parler de la taille de l'effet, c'est de la part de mon ami, qui a étudié la psychologie. Mon impression est que
Qu'est-ce qui est si utile à propos de cette mesure par rapport aux tests d'hypothèse traditionnels, et pourquoi devrais-je m'en soucier? Pour moi, cela ne ressemble à rien de plus qu'une statistique de test pour un test deux échantillons . Je ne vois pas cela du tout utile à part peut-être tout mettre sur la même échelle (c'est pourquoi tout le monde "normalise" quoi que ce soit), mais je pensais que les statistiques de test (ce qui me semble être la taille de l'effet) étaient démodées et les valeurs sont préférées.p
la source
Réponses:
C'est une mesure de la taille de l'effet, mais il y en a beaucoup d' autres. Ce n'est certainement pas la statistique du test . Votre mesure de la taille de l'effet est souvent appelée d de Cohen (à proprement parler, elle n'est correcte que si la SD est estimée via MLE, c'est-à-dire sans la correction de Bessel ); de façon plus générique, on parle de «différence moyenne normalisée». Cela rendra peut-être plus clair que t ≠ d : dt ré t ≠ d
Autrement dit, le "/√
la source
Je m'attends à ce que quelqu'un ayant une formation dans un domaine plus pertinent (psychologie ou éducation, par exemple) se lance avec une meilleure réponse, mais je vais essayer.
" Taille d'effet " est un terme avec plus d'une signification - qui a mené de nombreuses années à des conversations confuses jusqu'à ce que j'en arrive finalement à cette réalisation. Ici, nous avons clairement affaire à la version mise à l'échelle pour l'écart-type ("par combien d'écarts-types cela a-t-il changé?")
Une partie de la raison pour laquelle on examine ce type de «taille d'effet» dans les domaines dans lesquels ils sont courants est qu'ils ont souvent des variables dont les valeurs particulières ne sont pas intrinsèquement significatives mais sont conçues pour tenter de mesurer quelque chose sous-jacent difficile à obtenir. à.
Par exemple, imaginez que vous essayez de mesurer la satisfaction au travail (peut-être pour un modèle qui le relie à un ensemble de variables indépendantes, y compris peut-être un traitement d'intérêt, par exemple). Vous n'avez aucun moyen d'y accéder directement, mais vous pouvez (par exemple) essayer de construire un questionnaire pour en aborder différents aspects, peut-être en utilisant quelque chose comme une échelle de Likert.
Un chercheur différent peut avoir une approche différente pour mesurer la satisfaction au travail, et donc vos deux ensembles de mesures de "satisfaction" ne sont pas directement comparables - mais s'ils ont les différentes formes de validité et ainsi de suite que ces choses soient vérifiées (de sorte que ils peuvent raisonnablement mesurer la satisfaction), alors on peut espérer qu'ils auront des tailles d'effet très similaires; au moins, la taille de l'effet sera plus comparable.
la source
La formule ci-dessus est la façon dont vous calculez le d de Cohen pour les échantillons liés (ce qui est probablement ce que vous avez?), S'ils ne sont pas liés, vous pouvez utiliser la variance groupée à la place. Il existe différentes statistiques qui vous renseigneront sur la taille de l'effet, mais le d de Cohen est une mesure normalisée qui peut varier entre 0 et 3. Si vous avez beaucoup de variables différentes, il peut être agréable d'avoir une mesure normalisée lorsque vous pensez à tous ensemble. D'un autre côté, de nombreuses personnes préfèrent comprendre la taille de l'effet en termes d'unités mesurées. Pourquoi calculer d alors que vous avez déjà des valeurs p? Voici un exemple d'un ensemble de données avec lequel je travaille actuellement. Je regarde une intervention comportementale menée dans les écoles, mesurée à l'aide de questionnaires psychologiques validés (production de données Likert). Presque toutes mes variables montrent un changement statistiquement significatif, ce qui n'est peut-être pas surprenant car j'ai un grand échantillon (n = ~ 250). Cependant, pour certaines des variables, le d de Cohenest tout à fait minime, disons 0,12, ce qui indique que même s'il y a certainement des changements, ce n'est peut-être pas un changement cliniquement important et c'est donc important pour la discussion et l'interprétation de ce qui se passe dans les données. Ce concept est largement utilisé en psychologie et en sciences de la santé où les praticiens (ou les écoles, dans votre cas) doivent considérer l'utilité clinique réelle des traitements (ou quoi qu'ils expérimentent). Le d de Cohen nous aide à répondre aux questions de savoir si cela vaut vraiment la peine de faire une intervention (indépendamment des valeurs de p). En sciences médicales, ils aiment également considérer le NNT , et évaluer cela en termes de gravité de la condition en question. Jetez un œil à cette excellente ressource de @krstoffr http://rpsychologist.com/d3/cohend/
la source
la source
En fait, les valeurs p sont désormais enfin «démodées»: http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . Null tests de signification des hypothèses (NHST) produit un peu plus d'une description de votre taille de l' échantillon. (*) Toute intervention expérimentale aura un certain effet, ce qui est de dire que l'hypothèse simple nulle de « aucun effet » est toujours faux au sens strict . Par conséquent, un test «non significatif» signifie simplement que la taille de votre échantillon n'était pas assez grande; un test «significatif» signifie que vous avez collecté suffisamment de données pour «trouver» quelque chose.
La «taille d'effet» représente une tentative pour y remédier, en introduisant une mesure à l'échelle naturelle du problème. En médecine, où les traitements ont toujours un certain effet (même s'il s'agit d'un effet placebo), la notion d '«effet cliniquement significatif» est introduite pour se prémunir contre la probabilité préalable de 50% qu'un «traitement» se révèle avoir «a ( statistiquement) effet positif significatif »(bien que minuscule) dans une étude arbitrairement grande.
Si je comprends la nature de votre travail, clarinettiste, alors à la fin de la journée, son objectif légitime est d'informer les actions / interventions qui améliorent l'éducation dans les écoles de votre ressort. Ainsi, votre cadre est une décision-théorique , et les méthodes bayésiennes sont l' approche la plus appropriée (et uniquement cohérente [1] ).
En effet, la meilleure façon de comprendre les méthodes fréquentistes est approximations des méthodes bayésiennes . La taille estimée de l'effet peut être comprise comme visant une mesure de centralité pour la distribution postérieure bayésienne , tandis que la valeur p peut être comprise comme visant à mesurer une queue de cette position postérieure. Ainsi, ensemble, ces deux quantités contiennent une idée approximative de la partie postérieure bayésienne qui constitue l'apport naturel à une perspective théorique de décision sur votre problème. (Alternativement, un intervalle de confiance fréquentiste sur la taille de l'effet peut également être compris comme un intervalle crédible en attente .)
Dans les domaines de la psychologie et de l'éducation, les méthodes bayésiennes sont en fait assez populaires. Une des raisons à cela est qu'il est facile d'installer des «constructions» dans les modèles bayésiens, en tant que variables latentes. Vous aimerez peut-être consulter «le livre des chiots» de John K. Kruschke , un psychologue. Dans l'enseignement (où vous avez des élèves nichés dans des salles de classe, nichés dans des écoles, nichés dans des quartiers, ...), la modélisation hiérarchique est incontournable. Et les modèles bayésiens sont également parfaits pour la modélisation hiérarchique. Sur ce compte, vous voudrez peut-être consulter Gelman & Hill [2].
[1]: Robert, Christian P. The Bayesian Choice: From Decision-Theoretic Foundations to Computational Implementation. 2e éd. Textes Springer en statistiques. New York: Springer, 2007.
[2]: Gelman, Andrew et Jennifer Hill. Analyse des données à l'aide de modèles de régression et multiniveaux / hiérarchiques. Méthodes analytiques pour la recherche sociale. Cambridge; New York: Cambridge University Press, 2007.
Pour en savoir plus sur la «cohérence» d'un ne vous bat pas nécessairement la tête avec une brique bayésienne , voir [3].
[3]: Robins, James et Larry Wasserman. «Conditionnement, vraisemblance et cohérence: une revue de certains concepts fondamentaux». Journal de l'American Statistical Association 95, no. 452 (1er décembre 2000): 1340–46. doi: 10.1080 / 01621459.2000.10474344.
(*) Dans [4], Meehl fouette NHST de façon beaucoup plus élégante, mais non moins abrasive, que moi:
[4]: Meehl, Paul E. «Risques théoriques et astérisques tabulaires: Sir Karl, Sir Ronald et le lent progrès de la psychologie douce». Journal of Consulting and Clinical Psychiatry 46 (1978): 806–34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf
Et voici une citation connexe de Tukey: /stats//a/728/41404
la source