Certains auteurs (par exemple Pallant, 2007, p. 225; voir l'image ci-dessous) suggèrent de calculer la taille de l'effet pour un test de rang signé par Wilcoxon en divisant la statistique du test par la racine carrée du nombre d'observations:
Z
est la statistique de test produite par SPSS (voir l'image ci-dessous) ainsi que par wilcoxsign_test
dans R. (Voir aussi ma question connexe: teststatistic vs linearstatistic dans wilcoxsign_test )
D'autres suggèrent les coefficients de corrélation Bravais-Pearson ( ) ou Spearman ( ) (selon le type de données).
Lorsque vous les calculez, les deux r
s ne sont même pas identiques à distance. Par exemple, pour mes données actuelles:
r = 0,23 (pour )
r = 0,43 (Pearson)
Cela impliquerait des tailles d'effet assez différentes.
Quelle est donc la taille d'effet correcte à utiliser et comment les deux r
s sont-ils liés?
Pages 224 (partie inférieure) et 225 de Pallant, J. (2007). Manuel de survie SPSS:
la source
n
Réponses:
Il y a cependant une autre ride. Bien que vous souhaitiez une estimation de la taille de l'effet global, les gens utilisent généralement le test de classement signé de Wilcoxon avec des données qui ne sont que ordinales. C'est-à-dire lorsqu'ils ne sont pas convaincus que les données peuvent indiquer de manière fiable l'ampleur du changement au sein d'un étudiant, mais seulement qu'un changement s'est produit. Cela m'amène à la proportion améliorée discutée ci-dessus.
D'un autre côté, si vous êtes sûr que les valeurs sont intrinsèquement significatives (par exemple, vous avez uniquement utilisé le test de classement signé pour sa robustesse à la normalité et aux valeurs aberrantes), vous pouvez simplement utiliser une différence moyenne ou médiane brute, ou la différence moyenne normalisée comme mesure d'effet.
la source
Sans savoir quel type de données ont été évaluées, il est très difficile de donner de bons conseils ici. Et vraiment, c'est tout ce que vous pouvez obtenir. Il n'y a tout simplement pas de meilleure mesure de la taille de l'effet pour des questions comme celle-ci ... peut-être jamais.
Les tailles d'effet mentionnées dans la question sont toutes des tailles d'effet normalisées. Mais il est tout à fait possible que les moyens ou les médianes des mesures originales soient très bien. Par exemple, si vous mesurez combien de temps il faut pour qu'un processus de fabrication se termine, la différence de temps devrait être une taille d'effet parfaitement raisonnable. Tout changement dans le processus, les mesures futures, les mesures sur les systèmes et les mesures sur les usines seront tous à temps. Peut-être que vous voulez la moyenne ou peut-être que vous voulez la médiane, ou même le mode, mais la première chose que vous devez faire est de regarder l'échelle de mesure réelle et de voir si la taille de l'effet est raisonnable à interpréter et fortement liée à la mesure.
Pour aider à y réfléchir, les effets qui devraient être normalisés sont des éléments qui sont mesurés de manière plus indirecte et de bien des façons. Par exemple, les échelles psychologiques peuvent varier dans le temps et à bien des égards et tenter d'obtenir une variable sous-jacente qui n'est pas directement évaluée. Dans ces cas, vous souhaitez des tailles d'effet standardisées.
Avec des tailles d'effet normalisées, le problème critique n'est pas seulement de savoir lequel utiliser, mais ce qu'il signifie. Comme vous l'impliquez dans votre question, vous ne savez pas non plus ce qu'ils signifient et c'est la chose critique. Si vous ne savez pas quel est l'effet normalisé, vous ne pouvez pas le signaler correctement, l'interpréter correctement ou l'utiliser correctement. De plus, s'il existe plusieurs façons de discuter des données, rien ne vous empêche de signaler plus d'une taille d'effet. Vous pouvez discuter de vos données en termes de relation linéaire, comme avec la corrélation de moment de produit, ou en termes de relation entre les rangs avec Spearman
r
et les différences entre ceux-ci ou tout simplement fournir toutes les informations dans le tableau. Il n'y a rien de mal à cela du tout. Mais plus que tout, vous devrez décider de ce que vous voulez que vos résultats signifient. C'est quelque chose qui ne peut pas être répondu à partir des informations fournies et pourrait nécessiter beaucoup plus d'informations et de connaissances spécifiques au domaine qu'il n'est raisonnable pour une question dans ce type de forum.Et pensez toujours méta-analytiquement à la façon dont vous signalez les effets. Les gens pourront-ils à l'avenir prendre les résultats que je rapporte et les intégrer à d'autres? Il y a peut-être une norme dans votre domaine pour ces choses. Peut-être avez-vous sélectionné un test non paramétrique principalement parce que vous ne faites pas confiance aux conclusions des autres sur les distributions sous-jacentes et que vous souhaitez être plus conservateur dans vos hypothèses dans un domaine qui utilise principalement des tests paramétriques. Dans ce cas, il n'y a rien de mal à fournir en plus une taille d'effet généralement utilisée avec les tests paramétriques. Ces questions et bien d'autres doivent être prises en compte lorsque vous réfléchissez à la manière dont vous placez votre constatation dans une littérature plus vaste de recherches similaires. Des statistiques descriptives généralement bonnes résolvent ces problèmes.
Voilà donc le principal conseil. J'ai quelques commentaires supplémentaires. Si vous souhaitez que la taille de votre effet soit fortement liée au test que vous avez effectué, la
Z
recommandation basée est évidemment la meilleure. Votre taille d'effet standardisée signifie la même chose que le test. Mais dès que vous ne le faites pas, il n'y a rien de mal à utiliser presque tout le reste, même quelque chose comme Cohend
associé aux tests paramétriques. Il n'y a aucune hypothèse de normalité pour le calcul des moyennes, des écarts-types oud
scores. En fait, les hypothèses sont plus faibles que pour le coefficient de corrélation recommandé. Et toujours signaler de bonnes mesures descriptives. Encore une fois, les mesures descriptives n'ont aucune hypothèse que vous violeriez, mais gardez à l'esprit leur signification substantielle. Vous rapportez des statistiques descriptives qui disent quelque chose sur vos données que vous voulez dire et les moyens et les médianes disent des choses différentes.Si vous voulez discuter de mesures répétées par rapport à des tailles d'effet de conception indépendantes, c'est vraiment une toute nouvelle question.
la source