J'évalue l'efficacité de 5 méthodes différentes pour prédire un résultat binaire particulier (appelez-les «succès» et «échec»). Les données ressemblent à ceci:
Method Sample_Size Success Percent_Success
1 28 4 0.14
2 19 4 0.21
3 24 7 0.29
4 21 13 0.61
5 22 9 0.40
Je voudrais effectuer un test parmi ces 5 méthodes pour évaluer la supériorité relative des méthodes. En d'autres termes, je souhaite classer les méthodes par ordre de performance comme méthode 1> méthode 2> ... méthode 5. Pour éviter le problème des comparaisons multiples, je prévois de faire un test de permutation selon les lignes suivantes:
Étape 1: regrouper toutes les données afin que la taille globale de l'échantillon soit 114 avec 37 succès globaux.
Étape 2: Divisez au hasard les données en 5 groupes avec les tailles d'échantillon correspondantes de 28, 19, 24, 21 et 22.
Étape 3: Incrémentez un compteur si l'ordre observé de Percent_Success de l'étape 2 est cohérent avec l'ordre de mes données.
Étape 4: répétez les étapes 2 et 3 plusieurs fois (disons 10000).
Valeur de p souhaitée = valeur finale du compteur / 10000.
Des questions:
La procédure ci-dessus est-elle correcte?
Y a-t-il quelque chose dans R qui me permettrait d'effectuer le test ci-dessus?
Toutes suggestions d'amélioration ou méthodes alternatives seraient utiles.
Réponses:
La procédure proposée ne répond pas à votre question. Il estime uniquement la fréquence, sous l'hypothèse nulle, avec laquelle votre ordre observé se produirait. Mais sous ce zéro, à une bonne approximation, toutes les commandes sont également probables, d'où votre calcul produira une valeur proche de 1/5! = environ 0,83%. Cela ne nous dit rien.
Une observation plus évidente: l'ordre, basé sur vos données, est 4> 5> 3> 2> 1. Vos estimations de leurs supériorités relatives sont 0,61 - 0,40 = 21%, 0,40 - 0,21 = 11%, etc.
Supposons maintenant que votre question concerne la mesure dans laquelle l'une des différences de proportions pourrait être due au hasard dans l'hypothèse nulle de non-différence. Vous pouvez en effet évaluer ces dix questions avec un test de permutation. Cependant, à chaque itération, vous devez suivre dix indicateurs de différence relative en proportion, pas un indicateur global de la commande totale.(52)=10
Pour vos données, une simulation avec 100 000 itérations donne les résultats
Il est peu probable que les différences de proportions entre la méthode 4 et les méthodes 1, 2 et 3 soient dues au hasard (avec des probabilités estimées à 0,03%, 0,37%, 0,88%, respectivement), mais les autres différences pourraient l'être. Il existe des preuves (p = 2,44%) d'une différence entre les méthodes 1 et 5. Il apparaît donc que vous pouvez être sûr que les différences dans les proportions impliquées dans les relations 4> 3, 4> 2 et 4> 1 sont toutes positives , et il en est très probablement de même pour la différence de 5> 1.
la source
Votre procédure de test de permutation Monte-Carlo suggérée produira une valeur de p pour un test de l'hypothèse nulle que la probabilité de succès est la même pour toutes les méthodes. Mais il y a peu de raisons de faire un test de permutation Monte Carlo ici lorsque le test de permutation exact correspondant est parfaitement réalisable. C'est le test exact de Fisher (enfin, certaines personnes réservent ce nom aux tables 2x2, auquel cas c'est un test exact conditionnel). Je viens de taper vos données dans Stata et -tabi ..., exact- a donné p = .0067 (à titre de comparaison, le test du chi carré de Pearson donne p = .0059). Je suis sûr qu'il y a une fonction équivalente dans R que les gourous R ajouteront bientôt.
Si vous voulez vraiment regarder le classement, vous pouvez être mieux en utilisant une approche bayésienne, car elle peut donner une interprétation simple comme la probabilité que chaque méthode soit vraiment la meilleure, la deuxième meilleure, la troisième meilleure, .... Cela vient au prix de vous obliger à mettre des prieurs sur vos probabilités, bien sûr. L'estimation du maximum de vraisemblance des rangs est simplement l'ordre observé, mais il est difficile de quantifier l'incertitude dans le classement dans un cadre fréquentiste d'une manière qui peut être facilement interprétée, pour autant que je sache.
Je me rends compte que je n'ai pas mentionné plusieurs comparaisons, mais je ne vois tout simplement pas comment cela entre en jeu.
la source