Comment trouver des intervalles de confiance pour les notations?

32

Evan Miller, " Comment ne pas trier par note moyenne ", propose d'utiliser la limite inférieure d'un intervalle de confiance pour obtenir un "score" global raisonnable pour les éléments notés. Cependant, cela fonctionne avec un modèle de Bernoulli: les évaluations sont soit les pouces vers le haut, soit les pouces vers le bas.

Qu'est-ce qu'un intervalle de confiance raisonnable à utiliser pour un modèle de notation attribuant un score discret de à étoiles, en supposant que le nombre de notations pour un élément puisse être petit?1k

Je pense que je peux voir comment adapter le centre des intervalles de Wilson et Agresti-Coull comme

p~=i=1nxi+zα/22p0n+zα/22

où ou (probablement mieux) correspond à la note moyenne de tous les éléments. Cependant, je ne sais pas comment adapter la largeur de l'intervalle. Ma meilleure estimation (révisée) seraitp0=k+12

p~±zα/2n~i=1n(xip~)2+zα/2(p0p~)2n~

avec , mais je ne peux pas justifier avec plus que de l'agiter à la main comme une analogie d'Agresti-Coull, en prenant cela commen~=n+zα/22

Estimate(X¯)±zα/2n~Estimate(Var(X))

Existe-t-il des intervalles de confiance standard qui s'appliquent? (Notez que je ne suis abonné à aucun journal ni à un accès facile à une bibliothèque universitaire; donnez-moi bien les références, mais veuillez compléter avec le résultat réel!)

Peter Taylor
la source
4
Parce que les réponses actuelles ont (peut-être par politesse) contourné cette question, je voudrais souligner que cette application est un terrible abus des limites de confiance. Il n'y a aucune justification théorique à utiliser la LCL pour classer les moyennes (et de nombreuses raisons pour lesquelles la LCL est en réalité pire que la moyenne elle-même à des fins de classement). Ainsi, cette question repose sur une approche très imparfaite, ce qui peut expliquer pourquoi elle a attiré relativement peu d'attention.
whuber
2
Une caractéristique intéressante de cette question particulière est qu’elle contient un contexte suffisant pour nous permettre d’ignorer la question proprement dite et de nous concentrer sur ce qui semblait être le plus important sous-jacent.
Karl
1
Je suis content que vous ayez modifié le titre modifié à votre convenance, Peter. Mon édition initiale a été faite non pas pour être intéressée, mais pour que le titre reflète le texte de la question. Vous êtes l'arbitre final de ce que vous entendez vraiment.
whuber

Réponses:

23

Comme Karl Broman l'a dit dans sa réponse, une approche bayésienne serait probablement bien meilleure que d'utiliser des intervalles de confiance.

Le problème avec les intervalles de confiance

Pourquoi l'utilisation d'intervalles de confiance ne fonctionne-t-elle pas trop bien? Une des raisons est que si vous ne disposez pas de nombreuses évaluations pour un élément, votre intervalle de confiance sera très large, de sorte que la limite inférieure de l'intervalle de confiance sera petite. Ainsi, les articles sans beaucoup d’évaluations se retrouveront au bas de votre liste.

Intuitivement, cependant, vous souhaitez probablement que les éléments sans beaucoup d’évaluations soient proches de l’élément moyen. Vous souhaitez donc modifier l’évaluation estimée de l’élément pour obtenir l’évaluation moyenne de tous les éléments (c’est-à-dire que vous souhaitez pousser votre évaluation estimée vers un précédent ). . C'est exactement ce que fait une approche bayésienne.

Approche bayésienne I: Distribution normale sur les cotes

Une façon de déplacer la note estimée vers un précédent est, comme dans la réponse de Karl, d'utiliser une estimation de la forme :wR+(1w)C

  • R est la moyenne des notes attribuées aux articles.
  • C est la moyenne de tous les éléments (ou de tout ce que vous souhaitez réduire auparavant).
  • Notez que la formule est juste une combinaison pondérée de et .CRC
  • Rvmw=vv+m est le poids attribué à , où est le nombre de commentaires pour la bière et est une sorte de paramètre de "seuil" constant.Rvm
  • Notez que lorsque est très grande, à savoir, quand nous avons beaucoup de notes pour l'élément en cours, alors est très proche de 1, donc notre note estimée est très proche de et nous payons peu d' attention à l'avant . Cependant, lorsque est petit, est très proche de 0, de sorte que la valeur estimée attribue beaucoup de poids au précédent .w R C v w CvwRCvwC

On peut en fait donner à cette estimation une interprétation bayésienne en tant qu’estimation postérieure de la note moyenne de l’article lorsque les notes individuelles proviennent d’une distribution normale centrée autour de cette moyenne.

Cependant, l'hypothèse que les notations proviennent d'une distribution normale pose deux problèmes:

  • Une distribution normale est continue , mais les notations sont discrètes .
  • Les évaluations d'un élément ne suivent pas nécessairement une forme gaussienne unimodale. Par exemple, votre article est peut-être très polarisant, de sorte que les gens ont tendance à lui attribuer une note très élevée ou très basse.

Approche bayésienne II: Distribution multinomiale sur cotes

Ainsi, au lieu de supposer une distribution normale pour les notations, supposons une distribution multinomiale . C'est-à-dire que, pour un élément spécifique, il existe une probabilité qu'un utilisateur aléatoire lui attribue 1 étoile, une probabilité qu'un utilisateur aléatoire lui attribue 2 étoiles, etc.p 2p1p2

Bien sûr, nous n'avons aucune idée de ce que sont ces probabilités. Comme nous obtenons de plus en plus d’évaluations pour cet élément, nous pouvons deviner que est proche de , où est le nombre d’utilisateurs qui lui ont attribué une étoile et est le nombre total d’utilisateurs ayant évalué l'article, mais lorsque nous commençons, nous n'avons rien. Nous donc un Dirichlet avant sur ces probabilités.n 1p1 n1nDir(α1,,αk)n1nn1n Dir(α1,,αk)

Quel est ce Dirichlet avant? Nous pouvons considérer chaque paramètre comme un "décompte virtuel" du nombre de fois qu'une personne virtuelle a attribué à l'élément étoiles. Par exemple, si , et tous les autres sont égaux à 0, nous pouvons penser que cela signifie que deux personnes virtuelles ont attribué à l'élément une étoile et une personne virtuelle à l'élément deux. étoiles. Donc, avant même d'avoir des utilisateurs réels, nous pouvons utiliser cette distribution virtuelle pour fournir une estimation de la note de l'élément. i α 1 = 2 α 2 = 1 α iαiiα1=2α2=1αi

[Une façon de choisir les paramètres serait de définir égal à la proportion globale des votes de étoiles. (Notez que les paramètres ne sont pas nécessairement des entiers.)]α i i α iαiαiiαi

Ensuite, une fois que les évaluations réelles sont entrées, ajoutez simplement leurs comptes aux comptes virtuels de votre Dirichlet antérieur. Chaque fois que vous souhaitez estimer la note de votre article, il suffit de prendre la moyenne de toutes les notes de l'article (à la fois ses notes virtuelles et ses notes réelles).

Raegtin
la source
1
L’approche 2 est identique à l’approche 1, n’est-ce pas, mais avec une justification différente?
Peter Taylor
2
@ Peter: oh, c'est vrai! Je ne savais pas que jusqu'à ce que tu le mentionnes =). (Si tout ce que vous voulez faire, c'est prendre la moyenne du postérieur, ils sont identiques. Je suppose qu'avoir un Dirichlet postérieur peut être utile si vous voulez calculer un type de score différent, par exemple une sorte de mesure de polarité, bien que pourrait être un peu rare.)
raegtin
1
Dans l'approche 1, comment choisissez-vous généralement ? m
Jason C
15

Cette situation appelle une approche bayésienne. Il existe des approches simples pour le classement bayésien des notations ici (payer en particulier pour les commentaires, qui sont intéressants) et ici , puis un autre commentaire sur ceux-ci ici . Comme le mentionne l'un des commentaires du premier de ces liens:

Le meilleur de BeerAdvocate (BA) ... utilise une estimation bayésienne:

rang pondéré (WR) = (v / (v + m)) × R + (m / (v + m)) × C

où:
R = moyenne de critiques pour la bière
v = nombre de critiques pour la bière
m = minimum de critiques requises pour être répertorié (actuellement 10)
C = la moyenne sur la liste (actuellement 2,5)

Karl
la source
2
Un inconvénient de la méthode Beer Advocate est qu’elle ne tient pas compte de la variabilité. Néanmoins, je préfère cette ligne de pensée à l’idée de limite inférieure de condifence.
Karl