Si j'ai un système de classement par étoiles où les utilisateurs peuvent exprimer leur préférence pour un produit ou un article, comment puis-je détecter statistiquement si les votes sont très "divisés". Cela signifie, même si la moyenne est de 3 sur 5, pour un produit donné, comment puis-je détecter s'il s'agit d'une répartition 1-5 par rapport à un consensus 3, en utilisant uniquement les données (pas de méthodes graphiques)
variance
average
dispersion
David Williams
la source
la source
Réponses:
On pourrait construire un indice de polarisation; exactement comment on le définit dépend de ce qui constitue être plus polarisé (c'est-à-dire que voulez-vous dire exactement, dans des cas particuliers de bord, par plus ou moins polarisé?):
Par exemple, si la moyenne est «4», un partage 50-50 entre «3» et «5» est-il plus ou moins polarisé que 25% «1» et 75% «5»?
Quoi qu'il en soit, en l'absence de ce type de définition spécifique de ce que vous voulez dire, je proposerai une mesure basée sur la variance:
Étant donné une moyenne particulière, définissez la répartition la plus polarisée possible comme celle qui maximise la variance *.
* (NB cela voudrait dire que 25% '1' et 75% '5' est nettement plus polarisé que la répartition 50-50 de '3 et' 5; si cela ne correspond pas à votre intuition, n'utilisez pas la variance)
Cet indice de polarisation est donc la proportion de la plus grande variance possible ( avec la moyenne observée ) dans la variance observée.
Appelez la note moyenne ( ).m m = x¯
La variance maximale se produit lorsqu'une proportion est à et est à ; cela a une variance de .p = m - 14 5 1 - p 1 ( m - 1 ) ( 5 - m ) ⋅ nn - 1
Il suffit donc de prendre la variance de l'échantillon et de la diviser par ; cela donne un nombre entre (accord parfait) et (complètement polarisé).( m - 1 ) ( 5 - m ) ⋅ nn - 1 0 1
Pour un certain nombre de cas où la note moyenne est de 4, cela donnerait ce qui suit:
Vous préférerez peut- être plutôt ne pas les calculer par rapport à la plus grande variance possible avec la même moyenne, mais plutôt en pourcentage de la plus grande variance possible pour toute note moyenne . Cela impliquerait de diviser à la place par , et donne à nouveau une valeur entre 0 (accord parfait) et (polarisée aux extrêmes dans un rapport 50-50). Cela donnerait les mêmes relativités que le diagramme ci-dessus, mais toutes les valeurs seraient 3/4 aussi grandes (c'est-à-dire, de gauche à droite, de haut en bas, elles seraient de 0, 16,5%, 25%, 25%, 50 % et 75%). 14 ⋅ nn - 1 1
L'un ou l'autre des deux est un choix parfaitement valable - comme n'importe quel autre nombre de manières alternatives de construire un tel indice.
la source
m = 1
vous obtenez1 - 1 = 0
et0 / 0
. Comment corrigez-vous cela?"Pas de méthodes graphiques" est en quelque sorte un gros handicap, mais ... voici quelques idées étranges. Les deux traitent les notes comme continues, ce qui est en quelque sorte une faiblesse conceptuelle, et probablement pas la seule ...
Kurtosis
Régression binomiale négative
Avec un bloc de données comme celui-ci: Ajuster le modèle F r e q u e n c y ∼ R a t i n g + √
FWIW, voici le code r avec lequel j'ai joué:
Je ne peux pas résister à jeter dans un complot ...
LeR a t i n g------√
Edit: Je viens de voir cette question annoncée dans la barre latérale: et quand j'ai cliqué, je l'ai vue dans les Hot Network Questions se reliant à elle-même, comme cela arrive parfois ,
j'ai donc pensé que cela mériterait d'être revu d'une manière plus généralement utile. J'ai décidé d'essayer mes méthodes sur les avis clients Amazon pour le t-shirt à manches courtes The Mountain Three Wolf Moon :
x=rep(5:1,c(2273,198,89,54,208))
var(x)/(4*length(x)/(length(x)-1))
la source
la source
Je doute que je puisse ajouter quelque chose de précieux aux réponses intelligentes déjà données. En particulier, à l'idée fine de @ Glen_b d'évaluer comment la variance observée est relativement proche de la variance maximale possible sous la moyenne observée. Ma propre proposition directe et directe de l'épaule concerne plutôt une mesure de dispersion robuste basée non pas sur des écarts par rapport à un centre mais directement sur des distances entre des points de données.
la source
Que diriez-vous, si la note de 3 étoiles est inférieure à la moyenne des 5 et 4, et également inférieure à la moyenne des 1 et 2:
Du haut de ma tête, je ne peux penser à aucune situation dans laquelle cela ne fonctionnerait pas. En utilisant l'exemple ci-dessus: Commentaires des clients d'Amazon pour le t-shirt à manches courtes The Mountain Three Wolf Moon :
Dans ce cas:
Cela passerait le test et serait considéré comme une opinion divisée.
la source
Je ne sais pas de quel langage de programmation il s'agit, mais voici une méthode java qui vous donnera l'écart type:
la source