Définition rigoureuse d'une valeur aberrante?

44

Les gens parlent souvent de faire face aux valeurs aberrantes dans les statistiques. Ce qui me dérange à ce propos, c’est que, pour autant que je sache, la définition d’une valeur aberrante est complètement subjective. Par exemple, si la distribution réelle d'une variable aléatoire est très lourde ou bimodale, toute visualisation standard ou statistique récapitulative permettant de détecter les valeurs éloignées supprimera de manière incorrecte les parties de la distribution que vous souhaitez échantillonner. Qu'est-ce qu'une définition rigoureuse d'une valeur aberrante, s'il en existe une, et comment peut-on traiter les valeurs aberrantes sans introduire une quantité déraisonnable de subjectivité dans une analyse?

Dsimcha
la source
Si vous voulez savoir pour une distribution spécifique, renseignez-vous sur votre exemple. Ce sera différent pour différentes situations.
Jean
8
Eh bien, je m'attendrais à ce que vous ayez un rigorous definition of an outliermoment où vous serez en mesure de définir de unreasonable amounts of subjectivitymanière objective ;-), Merci
mangez le
1
Mais la définition peut varier selon la distribution et la situation sous-jacentes. Je pourrais dire ± 1,5 IQR, ou 3 SD, ou quelque chose comme ça. Mais je pourrais adopter une approche totalement différente si j’avais deux types de mesures: le temps de réaction et la précision. Je peux dire que RT est conditionné à un niveau de précision. Ils peuvent tous être bons et mathématiquement rigoureux et avoir différentes applications et significations.
Jean
2
Il existe de nombreuses définitions rigoureuses de valeurs aberrantes. Mais le choix parmi ceux-ci peut sembler arbitraire. Mais je pense que cela fait partie de l'idée fausse que les statistiques sont un sujet dans lequel chaque problème a une réponse correcte.
Peter Flom - Rétablir Monica

Réponses:

23

Tant que vos données proviennent d’une distribution connue avec des propriétés connues, vous pouvez définir rigoureusement une valeur aberrante comme un événement trop improbable pour avoir été généré par le processus observé (si vous considérez que "trop ​​improbable" pour être non rigoureux, alors tous les tests d'hypothèses sont).

Cependant, cette approche est problématique à deux niveaux: elle suppose que les données proviennent d’une distribution connue avec des propriétés connues et qu’elle présente le risque que les valeurs aberrantes soient considérées comme des points de données introduits en contrebande dans votre ensemble de données par certaines féeries magiques.

En l'absence de données magiques, toutes les données proviennent de votre expérience et il n'est donc pas possible d'avoir des valeurs aberrantes, mais des résultats étranges. Celles-ci peuvent provenir d’erreurs d’enregistrement (par exemple, une maison de 400 000 chambres pour 4 dollars), de problèmes de mesure systématique (l’algorithme d’analyse d’images signale de vastes superficies si l’objet est trop près de la frontière), de problèmes expérimentaux (parfois, des cristaux se détachent de la solution, qui donnent un signal très élevé) ou des caractéristiques de votre système (une cellule peut parfois se diviser en trois au lieu de deux), mais elles peuvent aussi être le résultat d'un mécanisme que personne n'a jamais envisagé parce que c'est rare et que vous faites de la recherche, ce qui signifie qu'une partie de ce que vous faites n'est tout simplement pas connue.

Dans l’idéal, vous prenez le temps d’enquêter sur chaque valeur aberrante et de ne la supprimer de votre jeu de données que lorsque vous comprenez pourquoi elle ne convient pas à votre modèle. Cela prend beaucoup de temps et est subjectif dans la mesure où les raisons dépendent fortement de l'expérience, mais l'alternative est encore pire: si vous ne comprenez pas d'où viennent les observations aberrantes, vous avez le choix entre laisser les résultats aberrants «gâcher» vos résultats, ou en définissant une approche "mathématiquement rigoureuse" pour masquer votre manque de compréhension. En d’autres termes, en recherchant la "rigueur mathématique", vous choisissez entre ne pas avoir d’effet significatif et ne pas aller au paradis.

MODIFIER

Si tout ce que vous avez est une liste de nombres sans savoir d'où ils viennent, vous ne pouvez pas savoir si un point de données est une valeur aberrante, car vous pouvez toujours supposer une distribution où toutes les données sont inliers.

Jonas
la source
3
Cependant, toutes les valeurs aberrantes ne sont pas générées à partir d'une expérience. J'ai travaillé avec un grand ensemble de données qui impliquait la collecte d'informations immobilières dans une région (prix de vente, nombre de chambres à coucher, superficie en pieds carrés, etc.), et de temps en temps, des erreurs de saisie de données se produisaient. 400 000 chambres à coucher vont pour 4 dollars, ou quelque chose d'insensé comme ça. Je pense que l’un des objectifs de la détermination d’une valeur aberrante consiste à déterminer s’il est possible de générer des données ou s’il s’agit simplement d’une erreur de saisie.
Christopher Aden
2
@ Christopher Aden: Je considérerais cela comme une partie du processus expérimental. Fondamentalement, pour pouvoir supprimer les valeurs aberrantes, vous devez comprendre comment les données ont été générées, c’est-à-dire qu’il n’est pas nécessaire de supprimer les données aberrantes sans raison valable. Sinon, vous ne faites que styliser vos données. J'ai modifié ma réponse pour mieux refléter cela.
Jonas
Ceci est parfaitement raisonnable, mais suppose que vous avez déjà une bonne quantité de connaissances préalables sur ce qu’est la vraie distribution. Je pensais plutôt à des scénarios où vous ne le faites pas et où cela pourrait être très lourd ou bimodal.
Dsimcha
@dsimcha: Je ne pense pas que vous puissiez identifier les valeurs aberrantes dans ce cas (voir aussi mon édition).
Jonas
2
@dsimcha - vous avez toujours des connaissances préalables! car comment les données vous ont-elles été données? tu le sais toujours toujours . les données ne se présentent pas comme par magie. et vous pouvez toujours faire des hypothèses provisoires. Les "valeurs aberrantes" basées sur ces hypothèses vous donnent fondamentalement une idée du fait que quelque chose est faux dans vos hypothèses. en étudiant la "valeur aberrante" (qui est toujours relative), vous pouvez améliorer votre modèle.
probabilityislogic
13

Vous avez raison de dire que l'élimination des valeurs aberrantes peut sembler être un exercice subjectif, mais cela ne signifie pas pour autant que c'est une erreur. Le besoin impératif d'avoir toujours une raison mathématique rigoureuse pour chaque décision relative à l'analyse de vos données est souvent simplement un mince voile de rigueur artificielle sur ce qui s'avère être un exercice subjectif de toute façon. Cela est particulièrement vrai si vous souhaitez appliquer la même justification mathématique à toutes les situations que vous rencontrez. (S'il existait des règles mathématiques claires à toute épreuve, vous n'auriez pas besoin d'un statisticien.)

Par exemple, dans votre situation de distribution longue traîne, il n’existe aucune méthode garantie permettant de décider, à partir des chiffres, si vous avez une distribution d’intérêts sous-jacente avec des valeurs aberrantes ou deux distributions d’intérêts sous-jacentes, les valeurs aberrantes ne faisant partie que d’une seule. Ou, Dieu nous en préserve, juste la distribution des données.

Plus vous collectez de données, plus vous entrez dans les régions à faible probabilité d'une distribution. Si vous collectez 20 échantillons, il est très peu probable que vous obteniez une valeur avec un z-score de 3,5. Si vous collectez 10 000 échantillons, vous en obtiendrez probablement un et cela fait naturellement partie de la distribution. Compte tenu de ce qui précède, comment décidez-vous simplement parce que quelque chose d'extrême empêche de l'exclure?

La sélection des meilleures méthodes en général pour l'analyse est souvent subjective. La subjectivité déraisonnable dépend de l'explication de la décision et de la valeur aberrante.

John
la source
+1 Barnett et Lewis, qui ont écrit le livre sur les valeurs aberrantes , déclarent "une valeur aberrante dans un ensemble de données [est] une observation (ou un sous-ensemble d'observations) qui semble être incompatible avec le reste de cet ensemble de données " [à la p. . 7]. Ils poursuivent en ces termes: «L’observateur a un jugement subjectif sur le point de savoir si une observation (…) doit être examinée (…). Ce qui caractérise la« valeur aberrante »est son impact sur l’observateur…. "
whuber
"le livre" est légèrement ambigu ici. Je considérerais Barnett et Lewis comme la monographie principale, mais ce n’est pas le seul livre sur les valeurs aberrantes. amazon.com/Outlier-Analysis-Charu-C-Aggarwal/dp/1461463955 est récente. Il y a aussi un ancien livre de DM Hawkins.
Nick Cox
9

Je ne pense pas qu'il soit possible de définir une valeur aberrante sans se baser sur un modèle du processus sous-jacent à l'origine des données. Sans un tel modèle, nous ne disposons d'aucun cadre de référence pour décider si les données sont anormales ou "fausses". La définition d’une valeur aberrante que j’ai trouvée utile est qu’elle est une observation (ou des observations) qui ne peut pas être rapprochée d’un modèle qui, par ailleurs, fonctionne bien.

Dikran Marsupial
la source
2
Hmm ... Dans son texte EDA, John Tukey a spécifiquement défini les valeurs éloignées sans utiliser aucun modèle.
whuber
7
Vous pouvez définir des valeurs éloignées sans modèle, mais j’ai trouvé que de telles définitions étaient inutiles. BTW, par modèle, je ne parle pas nécessairement d'un modèle statistique qui a été explicitement ajusté aux données. Toute définition d'une valeur aberrante nécessite que vous fassiez une supposition sur le type de valeurs que vous attendez de voir et sur le type de valeurs que vous ne vous attendez pas à voir. Je pense qu'il est préférable que ces hypothèses (le modèle) soient explicites. Il existe également le fait que dans EDA, vous explorez les données, votre définition d'une valeur aberrante peut être très différente pour EDA que pour l'ajustement d'un modèle final.
Dikran Marsupial
6

Il y a beaucoup d'excellentes réponses ici. Cependant, je tiens à souligner que deux questions sont confondues. La première est: "Qu'est-ce qu'une valeur aberrante?", Et plus précisément pour en donner une "définition rigoureuse". C'est simple:

Une valeur aberrante est un point de données provenant d'un processus de population / distribution / génération de données différent de celui que vous souhaitiez étudier / du reste de vos données.

La deuxième question est "Comment savoir / détecter qu'un point de données est une valeur aberrante?" Malheureusement, c'est très difficile. Cependant, les réponses données ici (qui sont vraiment très bonnes et que je ne peux pas améliorer) seront très utiles pour cette tâche.

gung - Rétablir Monica
la source
1
99(0,1)-2,52,5(4,1)21402
whuber
1
@ Whuber, oui. Je dis que c'est un cas particulier, même si vous ne remarquez ( ce qui, je pense, est ce que vous entendez par pratiquement opérationnelle).
gung - Rétablir Monica
1
J'apprécie la distinction que vous faites. Je voulais simplement souligner le contraste important entre votre définition et la plupart des autres définitions ou descriptions des valeurs aberrantes de ce fil. La vôtre ne semble pas donner lieu à des procédures pratiques satisfaisantes: vous devez toujours accepter le fait qu’une grande partie de votre ensemble de données peut être "distante" mais sans avoir aucun moyen de la détecter ou de la résoudre.
whuber
@whuber, je suis tout à fait d'accord. Je vois cela comme vaguement analogue aux tests d’hypothèses, où (par exemple) 2 groupes peuvent différer d’une quantité très petite, indétectable, ou d’une quantité modérée, mais les échantillons avec lesquels vous vous êtes retrouvés étaient très similaires par hasard; néanmoins, d’un point de vue théorique, il convient de comprendre et de maintenir la distinction.
gung - Rétablir Monica
1
@ Whuber, vous avez raison. Certains font cette distinction, mais beaucoup ne sont pas clairs sur ces idées. Ma position est qu'il n'y a pas de réalité significative de "valeur aberrante" autre qu'un contaminant . Néanmoins, les gens devraient aussi / plutôt penser que le problème leur tient à cœur si leurs résultats ne sont motivés que par eux (qu’ils soient «réels» ou non), et donc vos résultats sont très fragiles. En bref, il n’ya aucune raison de s’inquiéter des points qui appartiennent à votre population et qui ne conduisent pas uniquement à vos résultats; une fois que vous avez traité ces 2 problèmes, il n’ya plus rien à dire de «plus aberrant».
Gay - Rétablir Monica
6

Définition 1: Comme déjà mentionné, une valeur aberrante dans un groupe de données reflétant le même processus (par exemple, processus A) est une observation (ou un ensemble d'observations) qui ne sera probablement pas le résultat du processus A.

Cette définition implique certainement une estimation de la fonction de vraisemblance du processus A (donc un modèle) et la définition de ce qui est peu probable (par exemple, le lieu où il faut s'arrêter ...). Cette définition est à la base de la réponse que j'ai donnée ici . Il est plus lié aux idées de test d'hypothèse de signification ou de qualité de l'ajustement .

XgX

Cette définition implique un "modèle donné" et une mesure de la précision. Je pense que cette définition est plus du côté pratique et est plus à l'origine des valeurs aberrantes. À l'origine, la détection des valeurs aberrantes était un outil de statistiques robustes .

Évidemment, ces définitions peuvent être très similaires si vous comprenez que le calcul de la vraisemblance dans la première définition implique la modélisation et le calcul d'un score :)

robin girard
la source
2

Une valeur aberrante est un point de données qui me gêne, compte tenu de ma compréhension actuelle du processus qui génère ces données.

Je crois que cette définition est aussi rigoureuse que possible.

Wayne
la source
Cela contraste avec la définition de John Tukey (il a utilisé le terme "extérieur"): "Lorsque nous examinons certains lots de valeurs, nous constatons que certaines valeurs s'écartent apparemment bien au-delà des autres. Il est commode d'appliquer une règle de thumb qui choisit certaines valeurs comme "en dehors" ... "Il résume ensuite cela comme" ... l'identification de valeurs individuelles qui peuvent être inhabituelles ". [EDA, chapitre 2]. Il souligne tout au long du livre que nous décrivons des données plutôt que de prétendre "comprendre un processus" et que plusieurs descriptions valides sont toujours possibles.
whuber
De même, "Les valeurs aberrantes sont des valeurs d'échantillon qui créent une surprise par rapport à la majorité de l'échantillon" (WN Venables et BD Ripley. 2002. Statistiques appliquées modernes avec S. New York: Springer, p.119). Cependant, la surprise est dans l’esprit du spectateur et dépend d’un modèle tacite ou explicite des données. Il peut exister un autre modèle dans lequel la valeur aberrante n’est pas surprenant du tout, par exemple, les données sont réellement lognormales ou gamma plutôt que normales.
Nick Cox
@ Nick C'est conforme à Barnett et Lewis, que je cite dans un commentaire à la réponse de John .
whuber
@ Whuber: Vous dites "Contraste this", ce qui signifie que vous n'êtes pas d'accord, mais je ne suis pas sûr. Je dirais que la formation de modèle - implicite et naïve, peut-être - est la raison pour laquelle nous voyons des modèles dans les données, ou l'homme dans la lune, ou des valeurs aberrantes. Le modèle n'a peut-être aucune base physique / chimie / économique, mais nous avons émis l'hypothèse d'un modèle. Sinon, il n'y a pas de surprise, il n'y a pas "d'extérieur".
Wayne
Tukey insiste sur le fait que, pour décrire les données, nous ne les modélisons pas nécessairement . Il est juste d'étendre votre définition de "modèle" pour inclure la description des données, mais le terme devient alors presque trop général pour être utile. Du point de vue de Tukey (comme je l’interprète bien sûr), il n’ya pas de problème de perte de visage ni de question de commodité. Ainsi, bien que je respecte votre motivation, je pense que votre attitude (reflétée dans "sauver la face" et "gênant") est moins constructive que les autres approches de cette question.
whuber
0

définir une valeur aberrante en tant que membre de cet ensemble minimal d'éléments qui doivent être supprimés d'un jeu de données de taille n afin de garantir une conformité à 100% avec les tests RUM effectués à un niveau de confiance de 95% sur tous (2 ^ n -1) sous-ensembles uniques Les données. Voir le texte de Karian et Dudewicz sur l'ajustement des données aux fichiers PDF à l'aide de R (septembre 2010) pour obtenir la définition du test RUM.

Jerry Alderman
la source
-2

Les valeurs aberrantes ne sont importantes que dans le domaine fréquentiste. Si un seul point de données ajoute à votre modèle un biais qui est défini par une distribution sous-jacente prédéterminée par votre théorie, il s'agit d'une valeur aberrante pour ce modèle. La subjectivité réside dans le fait que si votre théorie propose un modèle différent, vous pouvez avoir un ensemble de points différent en tant que points aberrants.


la source
1
Vous prétendez que les valeurs aberrantes ne sont pas importantes dans l'analyse de données bayésienne?
whuber