test sur les préférences de l'utilisateur

8

J'ai généré un test utilisateur pour comparer deux méthodes: M1 et M2. Je génère 40 cas de test et montre le résultat de chaque méthode sur le cas de test à 20 individus, côte à côte, les individus ne savent pas quel résultat est venu de quelle méthode. Pour chaque cas de test, chaque personne doit dire si le résultat calculé par M1 est meilleur ou M2 est meilleur ou ils sont également bons.

Je veux savoir si M1 est meilleur que M2. J'additionne tous les résultats et génère un histogramme 3D, des votes pour M1, des votes pour égalité et des votes pour M2.

Si je ne regardais que M1 et M2 sous forme d'histogramme 2D. Je sais que si M1 et M2 étaient également bons, cet histogramme serait uniforme. Ensuite, je vais simplement effectuer le .χ2

Ce que je ne sais pas modéliser, ce sont les votes pour une égalité. Voici deux options auxquelles j'ai pensé:

  • La base du test du chi carré est que les histogrammes s'excluent mutuellement et s'additionnent à un. Il semble que les voix pour l'égalité puissent être divisées en deux et ajoutées à chaque M1 et M2 (et les égalités supprimées), mais cela ne semble pas très fondé sur des principes.
  • Une autre option est que je pourrais simplement ignorer les liens, ce qui semble défectueux car il casse la propriété "ajouter à un". Par exemple, si j'avais (M1: 2, égalité: 98 M2: 0), la différence entre les deux méthodes ne serait pas statistiquement significative.

Que puis-je faire d'autre? Suis-je en train de regarder cela incorrectement? Cela semble être un problème commun auquel les gens seraient confrontés lors de la modélisation des votes des utilisateurs. Quelle est la bonne façon de modéliser les liens?

carlosdc
la source
Cela ressemble beaucoup à un modèle de préférence (comparaison) par paires , non?
chl
Je ne comprends pas pourquoi il est problématique que les liens M1: 2: 98 M2: 0 ne soient pas statistiquement significatifs. En substance, vous auriez un échantillon de 2 personnes qui auraient une préférence et aucune table de ce type avec seulement 2 personnes ne serait stat. sig.
Peter Flom
2
Non, les deux répondent à des questions différentes, ils obtiennent donc des réponses différentes. Abandonner les liens me semble répondre à la question que vous souhaitez poser
Peter Flom
1
En guise de remarque secondaire: "Si je ne regardais que M1 et M2 comme un histogramme 2D. Je sais que si M1 et M2 étaient également bons, cet histogramme serait uniforme", c'est une idée fausse courante. Le vérifie uniquement si les lignes et les colonnes sont indépendantes, c'est-à-dire que chaque ligne est similaire aux autres lignes; ils n'ont pas à être uniformes. χ2
gung - Rétablir Monica
2
Il est certainement vrai que la distribution d'un dé équitable est un uniforme discret, et qu'un dé spécifique peut être testé par rapport à cette "distribution théorique particulière" pour l'équité. Mais les tests d' adéquation peuvent également être effectués contre d'autres distributions théoriques (non uniformes), et le test d'indépendance (que vous utiliseriez) ne l'exige certainement pas. χ2 χ2
gung - Rétablir Monica

Réponses:

6

Un modèle psychologiquement significatif peut nous guider.

Dérivation d'un test utile

Toute variation dans les observations peut être attribuée à des variations entre les sujets. On pourrait imaginer que chaque sujet, à un certain niveau, arrive avec une valeur numérique pour le résultat de la méthode 1 et une valeur numérique pour le résultat de la méthode 2. Ils comparent ensuite ces résultats. Si les deux sont suffisamment différents, le sujet fait un choix définitif, mais sinon le sujet déclare une égalité. (Cela est lié à l'existence d'un seuil de discrimination .)

La variation entre les sujets entraîne une variation des observations expérimentales. Il y aura une certaine chance de favoriser la méthode 1, une certaine chance de favoriser la méthode 2 et une certaine chance d'égalité.π1π2π0

Il est juste de supposer que le sujet répond indépendamment les uns des autres. En conséquence, la probabilité d'observer sujets favorisant la méthode 1, sujets favorisant la méthode 2 et sujets donnant des liens est multinomiale . Mis à part une constante de normalisation (non pertinente), le logarithme de la probabilité est égal àn1n2n0

n1log(π1)+n2log(π2)+n0log(π0).

Étant donné que , cela est maximisé lorsque où est le nombre de sujets.π0+π1+π2=0πi=ni/nn=n0+n1+n2

Pour tester l'hypothèse nulle selon laquelle les deux méthodes sont considérées comme également bonnes, nous maximisons la probabilité soumise à la restriction impliquée par cette hypothèse. Compte tenu du modèle psychologique et de son invocation d'un seuil hypothétique, nous devrons vivre avec la possibilité que (le risque de liens) soit non nul. La seule façon de détecter une tendance à privilégier un modèle par rapport à l'autre réside dans la manière dont et sont affectés: si le modèle 1 est favorisé, alors devrait augmenter et diminuer, et vice versa . En supposant que la variation est symétrique , la situation sans préférence se produit lorsqueπ0π1π2π1π2π1=π2 . (La taille de nous dira quelque chose sur le seuil - sur la capacité discriminatoire - mais ne donne autrement aucune information sur les préférences.)π0

Lorsqu'il n'y a pas de modèle préféré, la probabilité maximale se produit lorsque et, encore une fois, . En branchant les deux solutions précédentes, nous calculons la variation des probabilités maximales, :π1=π2=n1+n22/nπ0=n0/nG

G=(n1logn1n+n2logn2n+n0logn0n)(n1log(n1+n2)/2n+n2log(n1+n2)/2n+n0logn0n)=n1log2n1n1+n2+n2log2n2n1+n2.

La taille de cette valeur - qui ne peut pas être négative - nous indique la crédibilité de l'hypothèse nulle: lorsque est petit, les données sont "expliquées" presque aussi bien avec l'hypothèse nulle (restrictive) qu'elles le sont en général; lorsque la valeur est grande, l'hypothèse nulle est moins crédible.G

La théorie d'estimation du maximum de vraisemblance (asymptotique) dit qu'un seuil raisonnable pour ce changement est la moitié du quantile d'une distribution chi carré avec un degré de liberté (en raison de la restriction unique imposée par l'hypothèse nulle). Comme d'habitude, est la taille de ce test, souvent considéré comme 5% ( ) ou 1% ( ). Les quantiles correspondants sont et .1απ1=π2α0.050.013.8414596.634897


Exemple

Supposons que sur sujets, privilégie la méthode 1 et privilégie la méthode 2. Cela implique qu'il y a liens. La probabilité est alors maximisée pour et , où elle a une valeur de . Dans l'hypothèse nulle, la probabilité est plutôt maximisée pour , où sa valeur n'est que de . La différence de est inférieure à la moitié du seuil 5% de . Nous faisons doncn=20n1=3n2=9n0=2039=8π1=3/20=0.15π2=9/20=0.4520.208π1=π2=6/20=0.3021.778G=20.208(21.778)=1.57α=3.84pas rejeter l'hypothèse nulle.


À propos des liens et des tests alternatifs

En regardant la formule de , notez que le nombre de liens ( ) n'apparaît pas . Dans l'exemple, si nous avions observé à la place sujets et parmi eux favorisaient la méthode 1, favorisaient la méthode 2, et les restants étaient liés, le résultat serait le même.Gn0n=1003910039=88

Fractionner les liens et attribuer la moitié à la méthode 1 et la moitié à la méthode 2 est intuitivement raisonnable, mais il en résulte un test moins puissant . Par exemple, soit et . Considérons deux cas:n1=5n2=15

  1. n=20 sujets, il y avait donc liens. Le test de vraisemblance maximale rejetterait la valeur nulle pour toute valeur de supérieure à . Un autre test fréquemment utilisé dans cette situation (car il n'y a pas de liens) est un test binomial; il rejetterait la valeur nulle pour toute valeur de supérieure à . Les deux tests donneraient donc généralement les mêmes résultats, car ces valeurs critiques sont assez proches.n0=0α0.02217α0.02660

  2. n=100 sujets, donc il y avait liens. Le test de vraisemblance maximale rejetterait toujours la valeur nulle pour toute valeur de supérieure à . Le test binomial rejetterait le null uniquement pour toute valeur de supérieure à . Les deux tests donnent des résultats entièrement différents. En particulier, les liens ont affaibli la capacité du test binomial à distinguer une différence que la théorie du maximum de vraisemblance suggère comme réelle.n0=80α0.02217α0.319780

Enfin, considérons l' approche de table de contingence3×1 suggérée dans une autre réponse. Considérons sujets avec favorisant la méthode 1, privilégiant la méthode 2 et avec des liens. La "table" n'est que le vecteur . Sa statistique chi carré est de avec deux degrés de liberté. La valeur de p est de , ce qui amènerait la plupart des gens à conclure qu'il n'y a pas de différence entre les méthodes. Le résultat du maximum de vraisemblance donne plutôt une valeur de p de , ce qui rejetterait cette conclusion au niveau 5%.n=20n1=3n2=10n0=7(n0,n1,n2)=(7,3,10)3.70.15720.04614α=

Avec sujets, supposons que seule méthode préférée 1, seulement la méthode 2 et liens. Intuitivement, il y a très peu de preuves qu'une de ces méthodes a tendance à être privilégiée. Mais cette fois, la statistique du chi carré de clairement, incontestablement (mais à tort) qu'il y a une différence (la valeur p est inférieure à ).n=1001297182.421015

Dans les deux situations, l'approche du chi carré obtient une réponse totalement fausse: dans le premier cas, elle n'a pas le pouvoir de détecter une différence substantielle tandis que dans le second cas (avec beaucoup de liens), elle est extrêmement confiante quant à une différence sans conséquence. Le problème n'est pas que le test du chi carré est mauvais; le problème est qu'il teste une hypothèse différente: savoir si . Selon notre modèle conceptuel, cette hypothèse est un non-sens psychologique, car elle confond les informations sur les préférences (à savoir, et ) avec des informations sur les seuils de discrimination (à savoir, ). π1=π2=π0π1π2π0Il s'agit d'une belle démonstration de la nécessité d'utiliser un contexte de recherche et des connaissances en la matière (bien que simplifiées) pour sélectionner un test statistique.

whuber
la source
Vous dites "En regardant en arrière la formule pour G, notez que le nombre de liens (n0) n'apparaît pas" ... mais je vois n0 comme un terme dans la formule pour changer le log-lik. N'est-ce pas G?
russellpierce
1
@dr Voir l'expression finale de : c'est la différence des logarithmes de vraisemblance. Bien que les deux probabilités dépendent de , l'annulation supprime complètement cette dépendance. Gn0
whuber
Ah, je vois maintenant. J'ai raté le signe égal qui indiquait la réduction de l'équation.
russellpierce
Comment votre solution se compare-t-elle à une approche de table de contingence 2x2 hors liens?
russellpierce
1
@dr Il doit être identique. Le but de cette dérivation était de justifier cette approche en utilisant les principes de base de l'inférence statistique et de la psychologie, car il semble que le nœud du problème concerne la bonne façon de gérer les liens.
whuber
1

Je soupçonne que la réponse de whuber est (comme d'habitude) plus complète que ce que je vais taper. J'avoue que je ne comprends peut-être pas complètement la réponse de Whuber ... donc ce que je dis n'est peut-être pas unique ou utile. Cependant, je n'ai pas remarqué où dans la réponse de whuber l'imbrication des préférences sous les individus ainsi que l'imbrication des préférences dans les cas de test a été considérée. Je pense que, compte tenu de la clarification du demandeur:

Les cas sont en effet un échantillon aléatoire de tous les cas possibles. Je pense qu'une analogie est la suivante: l'élection est déterminée par ce qui se passe aux urnes, mais j'ai pour chaque électeur son appartenance à un parti. On pourrait donc presque s'attendre à ce qu'un candidat d'un parti fasse appel aux électeurs affiliés à ce parti, mais ce n'est pas nécessairement une évidence, un grand candidat peut gagner dans son parti et gagner des gens de l'autre parti.

... ce sont des considérations importantes. Par conséquent, ce qui est peut-être le plus approprié n'est pasχ2mais un modèle logistique à plusieurs niveaux. Plus précisément dans RI pourrait lancer quelque chose comme:

lmer(PreferenceForM1~1+(1|RaterID)+(1|TestCaseID),family=binomial)

PreferenceForM1 serait codé comme 1 (oui) et 0 (non). Ici, une interception supérieure à 0 indiquerait la préférence d'un évaluateur moyen pour la méthode 1 sur un cas de test moyen. Avec des échantillons proches des limites inférieures de l'utilité de ces techniques, j'utiliserais probablement aussi pvals.fnc et influence.ME pour étudier mes hypothèses et les effets des valeurs aberrantes.

La question fondamentale sur les liens ici semble bien répondre par whuber. Cependant, je vais (re) déclarer qu'il semble que les liens réduisent votre capacité à observer une différence statistiquement significative entre les méthodes. De plus, je dirai que leur élimination peut vous amener à surestimer la préférence des individus pour une méthode par rapport à l'autre. Pour la dernière raison, je les laisserais entrer.

russellpierce
la source
Je suis probablement confus par la Rnotation, mais votre suggestion n'a-t-elle pas plus de paramètres qu'il n'y a de données? Cette confusion n'est pas de votre fait: j'avais compris qu'il y avait20sujets et un seul résultat par sujet (M1, M2 ou égalité), mais l'interprétation implicite dans votre réponse est qu'il peut y avoir800=2040observations. Carlosdc, pourriez-vous clarifier cela pour nous?
whuber
OP a déclaré que "Je génère 40 cas de test et montre le résultat de chaque méthode sur le cas de test à 20 personnes"; "Pour chaque cas de test, chaque personne doit dire si le résultat calculé par M1 est meilleur ou M2 est meilleur ou ils sont également bien." Donc, j'interprétais OP comme disant qu'il y avait 20 * 40 observations.
russellpierce
Vous avez raison, il y aurait beaucoup de paramètres estimés dans ces données. Le nombre exact sur lequel je suis flou (un endroit où le package de statistiques m'a permis d'être complaisant avec ma compréhension des équations sous-jacentes).
russellpierce