Moyenne ajustée vs médiane

9

J'ai un ensemble de données avec tous les appels passés à un service d'urgence et les temps de réponse du service d'ambulance. Ils ont admis qu'il y avait des erreurs avec les temps de réponse car il y a des cas où ils n'ont pas commencé à enregistrer (donc la valeur est 0) ou où ils n'ont pas arrêté l'horloge (donc la valeur peut être extrêmement élevée).

Je veux connaître la tendance centrale et je me demandais s'il valait mieux utiliser la médiane ou la moyenne rognée pour se débarrasser des valeurs aberrantes?

Duarte_RV
la source
1
Premièrement, je supprimerais toutes les données invalides (valeur = 0). Ensuite, je visualisais les données avec un histogramme ou une boîte à moustaches pour voir où je me tenais. Parce que vous ne pouvez pas couper aveuglément les données de 5% si vous avez 10% de mauvaises données ...
alesc
Ouais, ou tracer le CDF. Dans R, faites ceci: times = times [times> 0]; plot (ecdf (times))
Paul

Réponses:

12

Considérez ce qu'est une moyenne tronquée: dans le cas du prototype, vous triez d'abord vos données dans l'ordre croissant. Ensuite, vous comptez jusqu'au pourcentage de coupe à partir du bas et supprimez ces valeurs. Par exemple, une moyenne ajustée de 10% est courante; dans ce cas, vous comptez à partir de la valeur la plus basse jusqu'à ce que vous ayez transmis 10% de toutes les données de votre ensemble. Les valeurs en dessous de cette marque sont mises de côté. De même, vous comptez à rebours à partir de la valeur la plus élevée jusqu'à ce que vous ayez dépassé votre pourcentage de découpe, et définissez toutes les valeurs supérieures à celle de côté. Vous vous retrouvez maintenant avec les 80% du milieu. Vous prenez la moyenne de cela, et c'est votre moyenne ajustée de 10%. (Notez que vous pouvez couper des proportions inégales des deux queues, ou seulement couper une queue, mais ces approches sont moins courantes et ne semblent pas applicables à votre situation.)

Pensez maintenant à ce qui se passerait si vous calculiez une moyenne ajustée à 50%. La moitié inférieure serait mise de côté, tout comme la moitié supérieure. Vous seriez laissé avec seulement la valeur unique au milieu (ordinairement). Vous prendriez la moyenne de cela (c'est-à-dire que vous prendriez juste cette valeur) comme votre moyenne ajustée. Notez cependant que cette valeur est la médiane. En d'autres termes, la médiane est une moyenne ajustée (c'est une moyenne ajustée à 50%). C'est juste très agressif. Il suppose, en substance, que 99% de vos données sont contaminées. Cela vous donne la protection ultime contre les valeurs aberrantes au détriment de la perte ultime de puissance / efficacité .

Je suppose qu'une médiane / une moyenne ajustée à 50% est beaucoup plus agressive que nécessaire pour vos données et gaspille trop les informations à votre disposition. Si vous avez une idée de la proportion de valeurs aberrantes qui existent, j'utiliserais ces informations pour définir le pourcentage d'ajustement et utiliser la moyenne ajustée appropriée. Si vous n'avez aucune base pour choisir le pourcentage d'ajustement, vous pouvez en sélectionner un par validation croisée, ou utiliser une analyse de régression robuste avec uniquement une interception.

gung - Réintégrer Monica
la source
1
Je suis d'accord avec l'esprit de cela, mais cela pourrait être mal interprété comme impliquant que les moyens coupés sont nécessairement basés sur la coupe de fractions égales dans chaque queue. C'est juste une procédure courante, et la procédure la plus souvent discutée pour un cas de référence de distributions approximativement symétriques mais éventuellement à queue grasse, mais elle n'est en aucun cas obligatoire. Il existe une littérature sur le parage dans une seule queue, ce qui est logique lorsque toutes les valeurs douteuses peuvent se trouver dans la queue.
Nick Cox
@NickCox, bon point. J'ai ajouté un petit texte pour clarifier cela. Faites-moi savoir si vous pensez qu'il en faut plus.
gung - Rétablir Monica
Cela semble bon. Naturellement, le parage dans une queue n'est qu'un cas particulier de proportions inégales où une proportion est nulle.
Nick Cox
@NickCox, bien sûr, mais j'ai pensé qu'il valait mieux être explicite.
gung - Rétablir Monica
-1

Tout d'abord, supprimez les données invalides.

Deuxièmement, vous n'avez pas besoin de supprimer les valeurs aberrantes car ce sont des valeurs observées. Dans certains cas, c'est utile (comme dans la régression linéaire) mais dans votre cas je ne vois pas l'intérêt.

Enfin, préférez utiliser la médiane car il est plus précis de trouver le centre de vos données. Comme vous l'avez dit, la moyenne peut être sensible aux valeurs aberrantes (l'utilisation d'une moyenne ajustée peut être biaisée).

Philippe Remy
la source
3
Étant donné que l'estimation de la localisation est un cas particulier de régression, je serais curieux de savoir comment il peut être utile de supprimer les valeurs aberrantes dans ce dernier cas, mais pas dans le premier cas.
user603