Supposons que deux groupes, comprenant et n 2 classent chacun un ensemble de 25 éléments du plus important au moins important. Quelles sont les meilleures façons de comparer ces classements?
De toute évidence, il est possible de faire 25 tests de Mann-Whitney U, mais cela entraînerait 25 résultats de tests à interpréter, ce qui peut être trop (et, en utilisation stricte, soulève des questions de comparaisons multiples). Il n'est pas non plus tout à fait clair pour moi que les rangs satisfont à toutes les hypothèses de ce test.
Je serais également intéressé par des pointeurs vers la littérature sur l'évaluation par rapport au classement.
Contexte: Ces 25 éléments concernent tous l'éducation et les deux groupes sont différents types d'éducateurs. Les deux groupes sont petits.
EDIT en réponse à @ttnphns:
Je ne voulais pas comparer le classement total des articles du groupe 1 au groupe 2 - ce serait une constante, comme le souligne @ttnphns. Mais les classements dans le groupe 1 et le groupe 2 seront différents; c'est-à-dire que le groupe 1 peut classer l'élément 1 plus haut que le groupe 2.
Je pourrais les comparer, article par article, obtenir le rang moyen ou médian de chaque article et faire 25 tests, mais je me demandais s'il y avait une meilleure façon de le faire.
la source
the best ways to compare these rankings
- quel type de différence entre les 2 groupes aimeriez-vous savoir?Réponses:
Sommaire
Je partage mes réflexions dans la section Détails . Je pense qu'ils sont utiles pour identifier ce que nous voulons vraiment réaliser.
Je pense que le principal problème ici est que vous n'avez pas défini ce que signifie une similitude de rang. Par conséquent, personne ne sait quelle méthode de mesure de la différence entre les rangs est la meilleure.
En fait, cela nous laisse choisir de manière ambiguë une méthode basée sur des suppositions.
Ce que je suggère vraiment, c'est de définir d'abord un objectif d'optimisation mathématique. Alors seulement, nous serons sûrs de savoir vraiment ce que nous voulons.
À moins que nous ne le fassions, nous ne savons vraiment pas ce que nous voulons. Nous pourrions presque savoir ce que nous voulons, mais presque savoir savoir .≠
Mon texte dans Détails est essentiellement une étape vers une définition mathématique de la similitude des rangs . Une fois que nous avons cloué cela, nous pouvons avancer en toute confiance pour choisir la meilleure méthode de mesure de cette similitude.
Détails
Basé sur l'un de vos commentaires:
Pour répondre à cela en interprétant strictement l'objectif:
Mais je ne pense pas que vous vouliez vraiment cette interprétation stricte . Par conséquent, je pense que ce que vous vouliez vraiment dire est:
Mais cette méthode convient-elle? Pour répondre à cela, regardons-le un peu plus en profondeur:
Il suppose que le coût de chaque montage est linéaire par rapport au nombre de sauts. Est-ce vrai pour notre domaine d'application? Se pourrait-il qu'une relation logistique soit plus adaptée? Ou exponentielle ?
Une fois que nous aurons abordé les points ci-dessus et atteint une mesure appropriée de similitude entre deux rangs, nous devrons alors poser des questions plus intéressantes, telles que:
la source
Cela ressemble au «test de classement signé Willcoxon» ( lien wikipedia ). En supposant que les valeurs de vos rangs proviennent du même ensemble (c'est-à-dire
[1, 25]
), il s'agit d'un test de différence par paires (l'hypothèse nulle étant que ces paires ont été choisies au hasard). NB c'est un score de dis-similitude!Il y a les deux
R
et lesPython
implémentations liées à cette page wiki.la source
Attention: c'est une excellente question et je ne connais pas la réponse, c'est donc plutôt "ce que je ferais si je devais":
Dans ce problème, il existe de nombreux degrés de liberté et de nombreuses comparaisons, mais avec des données limitées, il s'agit vraiment d'agréger efficacement les données. Si vous ne savez pas quel test exécuter, vous pouvez toujours "en inventer" un en utilisant des permutations:
Nous définissons d'abord deux fonctions:
Fonction de vote : comment marquer les classements afin de pouvoir combiner tous les classements d'un même groupe. Par exemple, vous pouvez attribuer 1 point à l'élément le mieux classé et 0 à tous les autres. Cependant, vous perdriez beaucoup d'informations, alors il vaut peut-être mieux utiliser quelque chose comme: l'élément le mieux classé obtient 1 point, le deuxième 2 points, etc.
Fonction de comparaison : comment comparer deux scores agrégés entre deux groupes. Puisque les deux seront un vecteur, prendre une norme appropriée de la différence fonctionnerait.
Procédez maintenant comme suit:
Le problème est que nous ne connaissons pas la distribution de la statistique de test sous le zéro que les deux groupes sont les mêmes. Mais s'ils sont identiques, nous pourrions mélanger au hasard les observations entre les groupes.
Ainsi, nous pouvons combiner les données de deux groupes, les mélanger / permuter, choisir le premiern1 (nombre d'observations dans le groupe A d'origine) observations pour le groupe A et le reste pour le groupe B. Calculez maintenant la statistique de test pour cet échantillon en utilisant les deux étapes précédentes.
Répétez le processus environ 1000 fois et utilisez maintenant les statistiques du test de permutation comme distribution empirique nulle. Cela vous permettra de calculer une valeur de p, et n'oubliez pas de faire un bel histogramme et de tracer une ligne pour votre statistique de test comme ceci:
Maintenant, bien sûr, il s'agit de choisir les bonnes fonctions de vote et de comparaison pour obtenir un bon pouvoir. Cela dépend vraiment de votre objectif et de votre intuition, mais je pense que ma deuxième suggestion pour la fonction de vote et lal1 La norme est un bon point de départ. Notez que ces choix peuvent faire et font une grande différence. L'intrigue ci-dessus utilisait lel1 norme et ce sont les mêmes données avec un l2 norme:
Mais selon le paramètre, je m'attends à ce qu'il puisse y avoir beaucoup d'aléatoire intrinsèque et vous aurez besoin d'une taille d'échantillon assez grande pour que la méthode passe-partout fonctionne. Si vous avez des connaissances préalables sur des choses spécifiques qui, selon vous, peuvent être différentes entre les deux groupes (par exemple, des éléments spécifiques), utilisez-les pour personnaliser vos deux fonctions. (Bien sûr, d'habitude, faites-le avant d'exécuter le test et ne choisissez pas les conceptions jusqu'à ce que vous obteniez quelque chose d'important s'applique)
PS me tirer un message si vous êtes intéressé par mon code (en désordre). C'est un peu trop long à ajouter ici mais je serais heureux de le télécharger.
la source