J'ai un ensemble de données avec tous les appels passés à un service d'urgence et les temps de réponse du service d'ambulance. Ils ont admis qu'il y avait des erreurs avec les temps de réponse car il y a des cas où ils n'ont pas commencé à enregistrer (donc la valeur est 0) ou où ils n'ont pas arrêté l'horloge (donc la valeur peut être extrêmement élevée).
Je veux connaître la tendance centrale et je me demandais s'il valait mieux utiliser la médiane ou la moyenne rognée pour se débarrasser des valeurs aberrantes?
mean
outliers
median
trimmed-mean
Duarte_RV
la source
la source
Réponses:
Considérez ce qu'est une moyenne tronquée: dans le cas du prototype, vous triez d'abord vos données dans l'ordre croissant. Ensuite, vous comptez jusqu'au pourcentage de coupe à partir du bas et supprimez ces valeurs. Par exemple, une moyenne ajustée de 10% est courante; dans ce cas, vous comptez à partir de la valeur la plus basse jusqu'à ce que vous ayez transmis 10% de toutes les données de votre ensemble. Les valeurs en dessous de cette marque sont mises de côté. De même, vous comptez à rebours à partir de la valeur la plus élevée jusqu'à ce que vous ayez dépassé votre pourcentage de découpe, et définissez toutes les valeurs supérieures à celle de côté. Vous vous retrouvez maintenant avec les 80% du milieu. Vous prenez la moyenne de cela, et c'est votre moyenne ajustée de 10%. (Notez que vous pouvez couper des proportions inégales des deux queues, ou seulement couper une queue, mais ces approches sont moins courantes et ne semblent pas applicables à votre situation.)
Pensez maintenant à ce qui se passerait si vous calculiez une moyenne ajustée à 50%. La moitié inférieure serait mise de côté, tout comme la moitié supérieure. Vous seriez laissé avec seulement la valeur unique au milieu (ordinairement). Vous prendriez la moyenne de cela (c'est-à-dire que vous prendriez juste cette valeur) comme votre moyenne ajustée. Notez cependant que cette valeur est la médiane. En d'autres termes, la médiane est une moyenne ajustée (c'est une moyenne ajustée à 50%). C'est juste très agressif. Il suppose, en substance, que 99% de vos données sont contaminées. Cela vous donne la protection ultime contre les valeurs aberrantes au détriment de la perte ultime de puissance / efficacité .
Je suppose qu'une médiane / une moyenne ajustée à 50% est beaucoup plus agressive que nécessaire pour vos données et gaspille trop les informations à votre disposition. Si vous avez une idée de la proportion de valeurs aberrantes qui existent, j'utiliserais ces informations pour définir le pourcentage d'ajustement et utiliser la moyenne ajustée appropriée. Si vous n'avez aucune base pour choisir le pourcentage d'ajustement, vous pouvez en sélectionner un par validation croisée, ou utiliser une analyse de régression robuste avec uniquement une interception.
la source
Tout d'abord, supprimez les données invalides.
Deuxièmement, vous n'avez pas besoin de supprimer les valeurs aberrantes car ce sont des valeurs observées. Dans certains cas, c'est utile (comme dans la régression linéaire) mais dans votre cas je ne vois pas l'intérêt.
Enfin, préférez utiliser la médiane car il est plus précis de trouver le centre de vos données. Comme vous l'avez dit, la moyenne peut être sensible aux valeurs aberrantes (l'utilisation d'une moyenne ajustée peut être biaisée).
la source