Winsoriser les données signifie remplacer les valeurs extrêmes d'un ensemble de données par une certaine valeur de centile à chaque extrémité, tandis que le rognage ou la troncature implique la suppression de ces valeurs extrêmes.
Je vois toujours les deux méthodes discutées comme une option viable pour atténuer l'effet des valeurs aberrantes lors du calcul de statistiques telles que la moyenne ou l'écart-type, mais je n'ai pas vu pourquoi on pourrait choisir l'une plutôt que l'autre.
Y a-t-il des avantages ou des inconvénients relatifs à l'utilisation du Winsorizing ou du Trimming? Y a-t-il certaines situations où une méthode serait préférable? Est-on utilisé plus souvent dans la pratique ou sont-ils fondamentalement interchangeables?
Réponses:
Dans une question différente, mais connexe sur la coupe que je viens de tomber, une réponse contenait les informations utiles suivantes sur la raison pour laquelle on pouvait utiliser soit la winsorisation ou le découpage:
Je suis curieux de savoir s'il existe une approche plus définitive, mais la logique ci-dessus semble raisonnable.
la source
Une bonne question qui se pose très souvent dans tous les domaines! Dans les deux cas, vous les supprimez techniquement de l'ensemble de données.
Je sais que c'est une pratique courante lorsque vous essayez de trouver graphiquement une tendance à utiliser une forme de troncature: utilisez l'ensemble des données à des fins de traçage, mais excluez ensuite les valeurs extrêmes pour l'interprétation.
Le problème avec la «winsorisation» est que les parties que vous ajoutez sont auto-remplissantes, c'est-à-dire qu'elles proviennent de l'ensemble de données lui-même et donc le supportent. Il y a des problèmes similaires si vous regardez le travail de validation croisée / classification dans l'apprentissage automatique, lorsque vous décidez comment utiliser les ensembles de données de formation et de test.
De toute façon, je ne suis pas tombé sur une approche standardisée - elle est toujours spécifique aux données. Vous pouvez essayer de déterminer quel centile vos données (les valeurs aberrantes) sont à l'origine d'un pourcentage donné de la volatilité / st. écart, et trouver un équilibre entre la réduction de cette volatilité mais la conservation autant de données que possible.
la source
C'est une bonne question, et celle à laquelle j'ai été confrontée. Dans les cas où vous avez un grand ensemble de données ou plus précisément un ensemble de données très variable, où la minorité des valeurs de données varie sur une large échelle (mais doit néanmoins être affichée), et la majorité de l'ensemble de données est dans une bande étroite, de telle sorte que si les données sont tracées telles quelles, les détails où se trouvent la majorité des données sont perdus, et la normalisation ou la normalisation ne montre pas une différenciation adéquate (au moins visuellement), ou, des données brutes sont requises à la place, puis tronquer ou victoriser le des valeurs de données extrêmes permettent une meilleure visualisation des données.
la source
la source