J'ai récemment lu le conseil que vous devez généralement utiliser la médiane et non pas éliminer les valeurs aberrantes. Exemple: l'article suivant http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/
a actuellement 16 avis:
review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1)
summary(review) ## "ordinary" summary
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.000 3.750 5.000 4.062 5.000 5.000
Parce qu'ils utilisent Mean, l'article obtient 4 étoiles, mais s'ils utilisent Median, il obtient 5 étoiles.
La médiane n'est-elle pas un juge «plus juste»?
Une expérience montre que l'erreur médiane est toujours supérieure à la moyenne. La médiane est-elle pire?
library(foreach)
#the overall population of bookjudgments
n<-5
p<-0.5
expected.value<-n*p
peoplesbelieve <-rbinom(10^6,n, p)
#16 ratings made for 100 books
ratings <- foreach(i=1:100, .combine=rbind) %do% sample(peoplesbelieve,16)
stat <- foreach(i=1:100, .combine=rbind) %do% c(mean=mean(ratings[i,]), median=median(ratings[i,]))
#which mean square error is bigger? Mean's or Median's?
meansqrterror.mean<-mean((stat[,"mean"]-expected.value)^2)
meansqrterror.median<-mean((stat[,"median"]-expected.value)^2)
res<-paste("mean MSE",meansqrterror.mean)
res<-paste(res, "| median MSE", meansqrterror.median)
print(res)
Réponses:
Le problème est que vous n'avez pas vraiment défini ce que signifie avoir une bonne ou une bonne note. Vous suggérez dans un commentaire sur la réponse de @ Kevin que vous ne l'aimez pas si une mauvaise critique retire un article. Mais en comparant deux articles où l'un a un "dossier parfait" et l'autre a une mauvaise critique, cette différence devrait peut-être se refléter.
Il y a tout un continuum (de grande dimension) entre la médiane et la moyenne. Vous pouvez classer les votes par valeur, puis prendre une moyenne pondérée avec les pondérations en fonction de la position dans cet ordre. La moyenne correspond à tous les poids étant égaux, la médiane correspond à seulement une ou deux entrées au milieu obtenant un poids différent de zéro, une moyenne ajustée correspond à donner à tous sauf le premier et le dernier couple le même poids, mais vous pouvez également décider de pondérer le ème sur n échantillons de poids 1k n ouexp(-(2k-1-n)211+(2k−1−n)2 , pour y jeter quelque chose au hasard. Peut-être qu'une telle moyenne pondérée où les valeurs aberrantes obtiennent moins de poids, mais toujours une quantité non nulle, pourrait combiner de bonnes propriétés de médiane et de moyenne?exp(−(2k−1−n)2n2)
la source
La réponse que vous obtenez dépend de la question que vous posez.
La moyenne et la médiane répondent à différentes questions. Ils donnent donc des réponses différentes. Ce n'est pas que l'un soit "plus juste" qu'un autre. Les médianes sont souvent utilisées avec des données très asymétriques (comme le revenu). Mais, même là, la moyenne est parfois la meilleure. Et parfois, vous ne voulez AUCUNE mesure de tendance centrale.
De plus, chaque fois que vous donnez une mesure de tendance centrale, vous devez donner une certaine mesure de propagation. Les appariements les plus courants sont l'écart-type moyen et l'intervalle médian-interquartile. Dans ces données, donner juste une médiane de 5 est, je pense, trompeur ou, du moins, non informatif. La médiane serait également de 5 si chaque vote était un 5.
la source
Si les seuls choix sont des nombres entiers compris entre 1 et 5, peut-on vraiment considérer cela comme une valeur aberrante?
la source
Cela dépend de la fonction de coût que vous utilisez.
MSE est minimisé en moyenne. Par conséquent, si vous utilisez la médiane MSE sera toujours pire que la moyenne.
MAIS, si vous utilisiez une erreur absolue, la moyenne serait pire!
Une belle explication à ce sujet peut être trouvée ici: http://www.johnmyleswhite.com/notebook/2013/03/22/modes-medians-and-means-an-unifying-perspective/
Le choix dépend de votre problème et de vos préférences. Si vous ne voulez pas que les valeurs aberrantes aient un grand impact sur la position du "point central", alors vous choisissez la médiane. Si vous vous souciez des valeurs aberrantes, vous choisissez la moyenne.
la source
Juste une petite pensée:
Si vous supposez que chaque note est tirée d'une variable continue latente, vous pouvez définir la médiane de cette variable d'intérêt sous-jacente comme votre valeur d'intérêt, plutôt que la moyenne de cette distribution sous-jacente. Lorsque la distribution est symétrique, la moyenne et la médiane estiment finalement les mêmes quantités. Lorsque la distribution est asymétrique, la médiane serait différente de la moyenne. Dans ce cas, à mon avis, la médiane correspondrait davantage à ce que nous considérons comme la valeur typique. Cela permet de comprendre pourquoi le revenu médian et les prix médians des logements sont généralement déclarés plutôt que la moyenne.
Cependant, lorsque vous avez un petit nombre de valeurs discrètes, la médiane fonctionne mal.
Vous pourriez peut-être utiliser une procédure d'estimation de la densité, puis prendre la médiane de cela, ou utiliser une médiane interpolée.
la source
La grande chose à propos de l'utilisation de la médiane pour les notes en étoiles est que les utilisateurs intelligents (conscients de l'utilisation de la médiane) ne "joueront" pas au système:
Si un utilisateur rationnel pense que la bonne note devrait être de 4 étoiles, mais qu'il a actuellement 4,5 étoiles, alors la meilleure façon d'obtenir quatre étoiles (en supposant qu'il y a eu plus de six votes) est de voter 1 étoile dans un système de notation basé sur la moyenne .
Dans un système basé sur une médiane, le choix rationnel de l'utilisateur consiste simplement à voter exactement le nombre d'étoiles que l'utilisateur pense que le produit devrait avoir.
C'est en quelque sorte le deuxième prix équivalent aux enchères pour les systèmes de classement par étoiles.
la source
Plusieurs bonnes réponses laissent encore de la place pour plus de commentaires.
Premièrement, personne ne s'est opposé à l'idée que la médiane vise à éliminer les valeurs aberrantes, mais je vais la nuancer. La signification voulue est évidente, mais il est facile pour des données réelles d'être plus compliquées. Tout au plus, la médiane vise à réduire ou à ignorer les valeurs aberrantes, mais même cela n'est pas garanti. Par exemple, avec des notes de 1 1 1 5 5 5, la médiane et la moyenne sont d'accord à 3, donc tout peut sembler bon. Mais un 5 supplémentaire fera basculer la médiane à 5 et un 1 supplémentaire fera basculer la médiane à 1. La moyenne se déplacerait d'environ 0,286 dans chaque cas. La moyenne est donc ici plus résistante que la médiane. L'exemple peut être rejeté comme inhabituel, mais ce n'est pas scandaleux. Le point n'est pas original, naturellement. Il est fait à Mosteller, F. et Tukey, JW 1977. Analyse et régression des données.Reading, MA: Addison-Wesley, pp.34-35.
Deuxièmement, des moyens réduits ont été mentionnés et l'idée mérite une plus grande poussée. La moyenne et la médiane n'ont pas besoin d'être des alternatives radicales pour que l'analyste choisisse (vote pour) l'une ou l'autre. Vous pouvez considérer tous les moyens de rognage possibles en fonction du rognage d'un certain nombre de valeurs dans chaque queue . Le tableau indique en # le nombre de valeurs incluses dans le calcul de la moyenne:
L'image principale ici est que vous pouvez choisir votre taux d'actualisation (ignorer autant de valeurs suspectes dans chaque queue) comme une sorte d'assurance contre le risque d'être hors tension en raison de valeurs extrêmes. Ce que je vois est un gradient assez lisse entre la moyenne et la médiane, qui est attendu ici car les valeurs possibles 1, 2, 3, 4, 5 sont toutes présentes dans les données. Un grand saut dans la séquence est attendu avec une valeur aberrante isolée.
Il n'y a aucune obligation avec des moyens coupés de couper des nombres égaux dans chaque queue, mais je ne développerai pas là-dessus.
Troisièmement, l'exemple est celui des avis Amazon. Le contexte est toujours pertinent pour guider la façon dont vous souhaitez résumer les données . Dans le cas des critiques Amazon, la meilleure réponse est de lire les critiques! Les notes élevées et basses pouvant être fausses (implicitement: l'auteur de ce livre est mon ami) et / ou sans rapport avec votre décision (explicitement: le revendeur m'a mal traité), il n'y a pas pour moi d'évidence implication sur la façon de résumer ces données, et en effet en vous montrant la distribution Amazon est au maximum informative.
Quatrièmement, et le plus élémentaire mais aussi fondamental de tous, qui vous fait choisir? Parfois, la moyenne et la médiane doivent toutes deux être déclarées (et, comme nous l'avons dit, un graphique de distribution également).
la source