Les gens parlent souvent de faire face aux valeurs aberrantes dans les statistiques. Ce qui me dérange à ce propos, c’est que, pour autant que je sache, la définition d’une valeur aberrante est complètement subjective. Par exemple, si la distribution réelle d'une variable aléatoire est très lourde ou bimodale, toute visualisation standard ou statistique récapitulative permettant de détecter les valeurs éloignées supprimera de manière incorrecte les parties de la distribution que vous souhaitez échantillonner. Qu'est-ce qu'une définition rigoureuse d'une valeur aberrante, s'il en existe une, et comment peut-on traiter les valeurs aberrantes sans introduire une quantité déraisonnable de subjectivité dans une analyse?
outliers
definition
Dsimcha
la source
la source
rigorous definition of an outlier
moment où vous serez en mesure de définir deunreasonable amounts of subjectivity
manière objective ;-), MerciRéponses:
Tant que vos données proviennent d’une distribution connue avec des propriétés connues, vous pouvez définir rigoureusement une valeur aberrante comme un événement trop improbable pour avoir été généré par le processus observé (si vous considérez que "trop improbable" pour être non rigoureux, alors tous les tests d'hypothèses sont).
Cependant, cette approche est problématique à deux niveaux: elle suppose que les données proviennent d’une distribution connue avec des propriétés connues et qu’elle présente le risque que les valeurs aberrantes soient considérées comme des points de données introduits en contrebande dans votre ensemble de données par certaines féeries magiques.
En l'absence de données magiques, toutes les données proviennent de votre expérience et il n'est donc pas possible d'avoir des valeurs aberrantes, mais des résultats étranges. Celles-ci peuvent provenir d’erreurs d’enregistrement (par exemple, une maison de 400 000 chambres pour 4 dollars), de problèmes de mesure systématique (l’algorithme d’analyse d’images signale de vastes superficies si l’objet est trop près de la frontière), de problèmes expérimentaux (parfois, des cristaux se détachent de la solution, qui donnent un signal très élevé) ou des caractéristiques de votre système (une cellule peut parfois se diviser en trois au lieu de deux), mais elles peuvent aussi être le résultat d'un mécanisme que personne n'a jamais envisagé parce que c'est rare et que vous faites de la recherche, ce qui signifie qu'une partie de ce que vous faites n'est tout simplement pas connue.
Dans l’idéal, vous prenez le temps d’enquêter sur chaque valeur aberrante et de ne la supprimer de votre jeu de données que lorsque vous comprenez pourquoi elle ne convient pas à votre modèle. Cela prend beaucoup de temps et est subjectif dans la mesure où les raisons dépendent fortement de l'expérience, mais l'alternative est encore pire: si vous ne comprenez pas d'où viennent les observations aberrantes, vous avez le choix entre laisser les résultats aberrants «gâcher» vos résultats, ou en définissant une approche "mathématiquement rigoureuse" pour masquer votre manque de compréhension. En d’autres termes, en recherchant la "rigueur mathématique", vous choisissez entre ne pas avoir d’effet significatif et ne pas aller au paradis.
MODIFIER
Si tout ce que vous avez est une liste de nombres sans savoir d'où ils viennent, vous ne pouvez pas savoir si un point de données est une valeur aberrante, car vous pouvez toujours supposer une distribution où toutes les données sont inliers.
la source
Vous avez raison de dire que l'élimination des valeurs aberrantes peut sembler être un exercice subjectif, mais cela ne signifie pas pour autant que c'est une erreur. Le besoin impératif d'avoir toujours une raison mathématique rigoureuse pour chaque décision relative à l'analyse de vos données est souvent simplement un mince voile de rigueur artificielle sur ce qui s'avère être un exercice subjectif de toute façon. Cela est particulièrement vrai si vous souhaitez appliquer la même justification mathématique à toutes les situations que vous rencontrez. (S'il existait des règles mathématiques claires à toute épreuve, vous n'auriez pas besoin d'un statisticien.)
Par exemple, dans votre situation de distribution longue traîne, il n’existe aucune méthode garantie permettant de décider, à partir des chiffres, si vous avez une distribution d’intérêts sous-jacente avec des valeurs aberrantes ou deux distributions d’intérêts sous-jacentes, les valeurs aberrantes ne faisant partie que d’une seule. Ou, Dieu nous en préserve, juste la distribution des données.
Plus vous collectez de données, plus vous entrez dans les régions à faible probabilité d'une distribution. Si vous collectez 20 échantillons, il est très peu probable que vous obteniez une valeur avec un z-score de 3,5. Si vous collectez 10 000 échantillons, vous en obtiendrez probablement un et cela fait naturellement partie de la distribution. Compte tenu de ce qui précède, comment décidez-vous simplement parce que quelque chose d'extrême empêche de l'exclure?
La sélection des meilleures méthodes en général pour l'analyse est souvent subjective. La subjectivité déraisonnable dépend de l'explication de la décision et de la valeur aberrante.
la source
Je ne pense pas qu'il soit possible de définir une valeur aberrante sans se baser sur un modèle du processus sous-jacent à l'origine des données. Sans un tel modèle, nous ne disposons d'aucun cadre de référence pour décider si les données sont anormales ou "fausses". La définition d’une valeur aberrante que j’ai trouvée utile est qu’elle est une observation (ou des observations) qui ne peut pas être rapprochée d’un modèle qui, par ailleurs, fonctionne bien.
la source
Il y a beaucoup d'excellentes réponses ici. Cependant, je tiens à souligner que deux questions sont confondues. La première est: "Qu'est-ce qu'une valeur aberrante?", Et plus précisément pour en donner une "définition rigoureuse". C'est simple:
La deuxième question est "Comment savoir / détecter qu'un point de données est une valeur aberrante?" Malheureusement, c'est très difficile. Cependant, les réponses données ici (qui sont vraiment très bonnes et que je ne peux pas améliorer) seront très utiles pour cette tâche.
la source
Définition 1: Comme déjà mentionné, une valeur aberrante dans un groupe de données reflétant le même processus (par exemple, processus A) est une observation (ou un ensemble d'observations) qui ne sera probablement pas le résultat du processus A.
Cette définition implique certainement une estimation de la fonction de vraisemblance du processus A (donc un modèle) et la définition de ce qui est peu probable (par exemple, le lieu où il faut s'arrêter ...). Cette définition est à la base de la réponse que j'ai donnée ici . Il est plus lié aux idées de test d'hypothèse de signification ou de qualité de l'ajustement .
Cette définition implique un "modèle donné" et une mesure de la précision. Je pense que cette définition est plus du côté pratique et est plus à l'origine des valeurs aberrantes. À l'origine, la détection des valeurs aberrantes était un outil de statistiques robustes .
Évidemment, ces définitions peuvent être très similaires si vous comprenez que le calcul de la vraisemblance dans la première définition implique la modélisation et le calcul d'un score :)
la source
Une valeur aberrante est un point de données qui me gêne, compte tenu de ma compréhension actuelle du processus qui génère ces données.
Je crois que cette définition est aussi rigoureuse que possible.
la source
définir une valeur aberrante en tant que membre de cet ensemble minimal d'éléments qui doivent être supprimés d'un jeu de données de taille n afin de garantir une conformité à 100% avec les tests RUM effectués à un niveau de confiance de 95% sur tous (2 ^ n -1) sous-ensembles uniques Les données. Voir le texte de Karian et Dudewicz sur l'ajustement des données aux fichiers PDF à l'aide de R (septembre 2010) pour obtenir la définition du test RUM.
la source
Les valeurs aberrantes ne sont importantes que dans le domaine fréquentiste. Si un seul point de données ajoute à votre modèle un biais qui est défini par une distribution sous-jacente prédéterminée par votre théorie, il s'agit d'une valeur aberrante pour ce modèle. La subjectivité réside dans le fait que si votre théorie propose un modèle différent, vous pouvez avoir un ensemble de points différent en tant que points aberrants.
la source