J'ai généré un test utilisateur pour comparer deux méthodes: M1 et M2. Je génère 40 cas de test et montre le résultat de chaque méthode sur le cas de test à 20 individus, côte à côte, les individus ne savent pas quel résultat est venu de quelle méthode. Pour chaque cas de test, chaque personne doit dire si le résultat calculé par M1 est meilleur ou M2 est meilleur ou ils sont également bons.
Je veux savoir si M1 est meilleur que M2. J'additionne tous les résultats et génère un histogramme 3D, des votes pour M1, des votes pour égalité et des votes pour M2.
Si je ne regardais que M1 et M2 sous forme d'histogramme 2D. Je sais que si M1 et M2 étaient également bons, cet histogramme serait uniforme. Ensuite, je vais simplement effectuer le .
Ce que je ne sais pas modéliser, ce sont les votes pour une égalité. Voici deux options auxquelles j'ai pensé:
- La base du test du chi carré est que les histogrammes s'excluent mutuellement et s'additionnent à un. Il semble que les voix pour l'égalité puissent être divisées en deux et ajoutées à chaque M1 et M2 (et les égalités supprimées), mais cela ne semble pas très fondé sur des principes.
- Une autre option est que je pourrais simplement ignorer les liens, ce qui semble défectueux car il casse la propriété "ajouter à un". Par exemple, si j'avais (M1: 2, égalité: 98 M2: 0), la différence entre les deux méthodes ne serait pas statistiquement significative.
Que puis-je faire d'autre? Suis-je en train de regarder cela incorrectement? Cela semble être un problème commun auquel les gens seraient confrontés lors de la modélisation des votes des utilisateurs. Quelle est la bonne façon de modéliser les liens?
Réponses:
Un modèle psychologiquement significatif peut nous guider.
Dérivation d'un test utile
Toute variation dans les observations peut être attribuée à des variations entre les sujets. On pourrait imaginer que chaque sujet, à un certain niveau, arrive avec une valeur numérique pour le résultat de la méthode 1 et une valeur numérique pour le résultat de la méthode 2. Ils comparent ensuite ces résultats. Si les deux sont suffisamment différents, le sujet fait un choix définitif, mais sinon le sujet déclare une égalité. (Cela est lié à l'existence d'un seuil de discrimination .)
La variation entre les sujets entraîne une variation des observations expérimentales. Il y aura une certaine chance de favoriser la méthode 1, une certaine chance de favoriser la méthode 2 et une certaine chance d'égalité.π1 π2 π0
Il est juste de supposer que le sujet répond indépendamment les uns des autres. En conséquence, la probabilité d'observer sujets favorisant la méthode 1, sujets favorisant la méthode 2 et sujets donnant des liens est multinomiale . Mis à part une constante de normalisation (non pertinente), le logarithme de la probabilité est égal àn1 n2 n0
Étant donné que , cela est maximisé lorsque où est le nombre de sujets.π0+π1+π2=0 πi=ni/n n=n0+n1+n2
Pour tester l'hypothèse nulle selon laquelle les deux méthodes sont considérées comme également bonnes, nous maximisons la probabilité soumise à la restriction impliquée par cette hypothèse. Compte tenu du modèle psychologique et de son invocation d'un seuil hypothétique, nous devrons vivre avec la possibilité que (le risque de liens) soit non nul. La seule façon de détecter une tendance à privilégier un modèle par rapport à l'autre réside dans la manière dont et sont affectés: si le modèle 1 est favorisé, alors devrait augmenter et diminuer, et vice versa . En supposant que la variation est symétrique , la situation sans préférence se produit lorsqueπ0 π1 π2 π1 π2 π1=π2 . (La taille de nous dira quelque chose sur le seuil - sur la capacité discriminatoire - mais ne donne autrement aucune information sur les préférences.)π0
Lorsqu'il n'y a pas de modèle préféré, la probabilité maximale se produit lorsque et, encore une fois, . En branchant les deux solutions précédentes, nous calculons la variation des probabilités maximales, :π1=π2=n1+n22/n π0=n0/n G
La taille de cette valeur - qui ne peut pas être négative - nous indique la crédibilité de l'hypothèse nulle: lorsque est petit, les données sont "expliquées" presque aussi bien avec l'hypothèse nulle (restrictive) qu'elles le sont en général; lorsque la valeur est grande, l'hypothèse nulle est moins crédible.G
La théorie d'estimation du maximum de vraisemblance (asymptotique) dit qu'un seuil raisonnable pour ce changement est la moitié du quantile d'une distribution chi carré avec un degré de liberté (en raison de la restriction unique imposée par l'hypothèse nulle). Comme d'habitude, est la taille de ce test, souvent considéré comme 5% ( ) ou 1% ( ). Les quantiles correspondants sont et .1−α π1=π2 α 0.05 0.01 3.841459 6.634897
Exemple
Supposons que sur sujets, privilégie la méthode 1 et privilégie la méthode 2. Cela implique qu'il y a liens. La probabilité est alors maximisée pour et , où elle a une valeur de . Dans l'hypothèse nulle, la probabilité est plutôt maximisée pour , où sa valeur n'est que de . La différence de est inférieure à la moitié du seuil 5% de . Nous faisons doncn=20 n1=3 n2=9 n0=20−3−9=8 π1=3/20=0.15 π2=9/20=0.45 −20.208… π1=π2=6/20=0.30 −21.778 G=−20.208−(−21.778)=1.57 α= 3.84 pas rejeter l'hypothèse nulle.
À propos des liens et des tests alternatifs
En regardant la formule de , notez que le nombre de liens ( ) n'apparaît pas . Dans l'exemple, si nous avions observé à la place sujets et parmi eux favorisaient la méthode 1, favorisaient la méthode 2, et les restants étaient liés, le résultat serait le même.G n0 n=100 3 9 100−3−9=88
Fractionner les liens et attribuer la moitié à la méthode 1 et la moitié à la méthode 2 est intuitivement raisonnable, mais il en résulte un test moins puissant . Par exemple, soit et . Considérons deux cas:n1=5 n2=15
Enfin, considérons l' approche de table de contingence3×1 suggérée dans une autre réponse. Considérons sujets avec favorisant la méthode 1, privilégiant la méthode 2 et avec des liens. La "table" n'est que le vecteur . Sa statistique chi carré est de avec deux degrés de liberté. La valeur de p est de , ce qui amènerait la plupart des gens à conclure qu'il n'y a pas de différence entre les méthodes. Le résultat du maximum de vraisemblance donne plutôt une valeur de p de , ce qui rejetterait cette conclusion au niveau 5%.n=20 n1=3 n2=10 n0=7 (n0,n1,n2)=(7,3,10) 3.7 0.1572 0.04614 α=
Avec sujets, supposons que seule méthode préférée 1, seulement la méthode 2 et liens. Intuitivement, il y a très peu de preuves qu'une de ces méthodes a tendance à être privilégiée. Mais cette fois, la statistique du chi carré de clairement, incontestablement (mais à tort) qu'il y a une différence (la valeur p est inférieure à ).n=100 1 2 97 182.42 10−15
Dans les deux situations, l'approche du chi carré obtient une réponse totalement fausse: dans le premier cas, elle n'a pas le pouvoir de détecter une différence substantielle tandis que dans le second cas (avec beaucoup de liens), elle est extrêmement confiante quant à une différence sans conséquence. Le problème n'est pas que le test du chi carré est mauvais; le problème est qu'il teste une hypothèse différente: savoir si . Selon notre modèle conceptuel, cette hypothèse est un non-sens psychologique, car elle confond les informations sur les préférences (à savoir, et ) avec des informations sur les seuils de discrimination (à savoir, ).π1=π2=π0 π1 π2 π0 Il s'agit d'une belle démonstration de la nécessité d'utiliser un contexte de recherche et des connaissances en la matière (bien que simplifiées) pour sélectionner un test statistique.
la source
Je soupçonne que la réponse de whuber est (comme d'habitude) plus complète que ce que je vais taper. J'avoue que je ne comprends peut-être pas complètement la réponse de Whuber ... donc ce que je dis n'est peut-être pas unique ou utile. Cependant, je n'ai pas remarqué où dans la réponse de whuber l'imbrication des préférences sous les individus ainsi que l'imbrication des préférences dans les cas de test a été considérée. Je pense que, compte tenu de la clarification du demandeur:
... ce sont des considérations importantes. Par conséquent, ce qui est peut-être le plus approprié n'est pasχ2 mais un modèle logistique à plusieurs niveaux. Plus précisément dans RI pourrait lancer quelque chose comme:
PreferenceForM1 serait codé comme 1 (oui) et 0 (non). Ici, une interception supérieure à 0 indiquerait la préférence d'un évaluateur moyen pour la méthode 1 sur un cas de test moyen. Avec des échantillons proches des limites inférieures de l'utilité de ces techniques, j'utiliserais probablement aussi pvals.fnc et influence.ME pour étudier mes hypothèses et les effets des valeurs aberrantes.
La question fondamentale sur les liens ici semble bien répondre par whuber. Cependant, je vais (re) déclarer qu'il semble que les liens réduisent votre capacité à observer une différence statistiquement significative entre les méthodes. De plus, je dirai que leur élimination peut vous amener à surestimer la préférence des individus pour une méthode par rapport à l'autre. Pour la dernière raison, je les laisserais entrer.
la source
R
notation, mais votre suggestion n'a-t-elle pas plus de paramètres qu'il n'y a de données? Cette confusion n'est pas de votre fait: j'avais compris qu'il y avait