Détection des valeurs aberrantes sur les distributions asymétriques

24

Dans une définition classique d'une valeur aberrante en tant que point de données en dehors du 1.5 * IQR du quartile supérieur ou inférieur, il y a une hypothèse d'une distribution non asymétrique. Pour les distributions asymétriques (exponentielle, Poisson, géométrique, etc.) est le meilleur moyen de détecter une valeur aberrante en analysant une transformation de la fonction d'origine?

Par exemple, des distributions vaguement régies par une distribution exponentielle, pourraient être transformées avec une fonction log - à quel point est-il acceptable de rechercher des valeurs aberrantes basées sur la même définition IQR?

Eric
la source
4
Ce site contient de nombreuses questions sur l'évaluation des valeurs aberrantes. Une chose que vous devez ajouter ici pour obtenir une réponse raisonnable est ce que vous essayez vraiment de faire ou de découvrir. Mais pour commencer, la 1.5*IQRdéfinition d'une valeur aberrante n'est pas universellement acceptée. Essayez de décharger votre question et développez le problème que vous essayez de résoudre.
John
L'affirmation qu'une valeur supérieure à 1,5 IQR est une valeur aberrante est tout simplement absurde. Des données supérieures à 1,5 IQR seraient entièrement cohérentes avec un nombre infini de distributions, et à mesure que la taille de l'échantillon devient grande, on pourrait avoir une confiance presque parfaite que ces données ne sont PAS des valeurs aberrantes.
wolfies

Réponses:

18

Selon une définition classique d'une valeur aberrante en tant que point de données en dehors du 1,5 * IQR du quartile supérieur ou inférieur,

C'est la règle pour identifier les points en dehors des extrémités des moustaches dans un boxplot. Tukey lui-même s'opposerait sans aucun doute à les qualifier de valeurs aberrantes sur cette base (il ne considérait pas nécessairement les points en dehors de ces limites comme des valeurs aberrantes). Il s'agirait plutôt de points qui - si vos données devaient provenir d'une distribution quelque peu similaire à une distribution normale - on pourrait faire l'objet d'une enquête plus approfondie (comme vérifier que vous n'avez pas transposé deux chiffres, par exemple) - tout au plus ces pourrait être des valeurs aberrantes potentielles . Comme le souligne Nick Cox dans les commentaires sous cette réponse , une queue de beaucoup de ces points serait davantage considérée comme un indicateur qu'une ré-expression pourrait convenir que comme une indication de la nécessité de considérer les points comme des valeurs aberrantes.

il y a une hypothèse d'une distribution non asymétrique.

J'ai supposé par «non biaisé» que vous voulez dire symétrique. L'hypothèse est plus que cela. Une distribution à queue lourde mais symétrique peut avoir de nombreux points en dehors des limites de cette règle.

Pour les distributions asymétriques (exponentielle, Poisson, géométrique, etc.) est le meilleur moyen de détecter une valeur aberrante en analysant une transformation de la fonction d'origine?

Cela dépend de ce qui constitue une valeur aberrante à vos fins. Il n'y a pas de définition unique qui convient à chaque objectif - en effet, en général, vous feriez probablement mieux de faire d'autres choses que (par exemple) de repérer les valeurs aberrantes et de les omettre.

Pour l'exponentielle ou la géométrie, vous pourriez faire un calcul similaire à celui d'un boxplot, mais qui identifierait une fraction similaire dans la queue droite uniquement (vous n'aurez pas de points bas identifiés dans une exponentielle ou géométrique) ... ou vous pourriez faire autre chose.

Dans les grands échantillons, le boxplot marque environ 0,35% de points à chaque extrémité, soit environ 0,7% au total. Par exemple, pour une exponentielle, vous pouvez marquer un multiple de la médiane. Si vous vouliez marquer environ 0,7% des points au total pour une exponentielle réelle, cela suggérerait de marquer des points au-delà d'environ 7,1 fois la médiane.

Les points de marquage supérieurs à 7,1 fois la médiane pour n = 1000 atteindront généralement entre 0,4% et 1,1% des valeurs:

ae <- rexp(1000)
table( ae > 7.1*median(ae) )

FALSE  TRUE 
  993     7 

Par exemple, des distributions vaguement régies par une distribution exponentielle, pourraient être transformées avec une fonction log - à quel point est-il acceptable de rechercher des valeurs aberrantes basées sur la même définition IQR?

Cela dépend totalement de ce que vous entendez par «acceptable». Notez cependant que -

i) la distribution résultante n'est pas réellement symétrique, mais nettement asymétrique à gauche.

entrez la description de l'image ici

En conséquence, vous ne marquerez généralement que des points à l' extrémité gauche (c'est-à-dire près de zéro, où vous vous attendez à ce que les valeurs exponentielles soient de toute façon) plutôt qu'à droite (où les "valeurs aberrantes" pourraient être), à ​​moins qu'elles ne soient vraiment extrême.

ii) la pertinence d'une telle règle dépendra fortement de ce que vous faites.

Si vous êtes préoccupé par la valeur étrange et étrange affectant votre inférence, en général, il vaut probablement mieux utiliser des procédures robustes que d'identifier formellement les valeurs aberrantes.

Si vous voulez vraiment utiliser une règle basée sur la normale pour les données exponentielles ou de Poisson transformées, je suggérerais au moins de l'appliquer à la racine carrée pour un Poisson (tant que la moyenne n'est pas trop petite , il devrait être à peu près normal) et de cube racine ou même quatrième racine pour l'exponentielle (et peut-être, par extension, la géométrique).

ou peut-être , comme dans la transformation d'AnscombeX+38

entrez la description de l'image ici

Pour une exponentielle, dans les grands échantillons, l'approche de la racine cubique aura tendance à marquer des points uniquement dans la queue supérieure (à peu près au même rythme qu'elle les marque dans la queue supérieure pour une normale) et l'approche de la quatrième racine marque des points dans les deux queues (légèrement plus dans la queue inférieure, au total à quelque chose près de 40% du taux, il le fait pour une normale). Parmi les possibilités, la racine cubique a plus de sens pour moi que les deux autres, mais je ne conseillerais pas nécessairement de l'utiliser comme une règle dure et rapide.

Glen_b -Reinstate Monica
la source
1
"Une distribution lourde mais symétrique pourrait avoir de nombreux points en dehors des limites de cette règle.". Il y a toujours exactement 50% de tous les points dans l'IQR, n'est-ce pas?
JulienD
2
@muraveill En effet - mais il n'y a pas toujours 0,7% de points à l'extérieur qui est la règle du boxplot qui est en discussion. (Q11.5×IQR,Q3+1.5×IQR)
Glen_b -Reinstate Monica
@Glen_b Le seuil de rejet supérieur pour l'exponentielle dans votre réponse suppose que le paramètre de décalage (ou thêta) est connu. Je pense que cela devrait être mentionné.
user603
1
@ user603 Le terme " distribution exponentielle " (voir aussi ici ) sans aucun adjectif modificateur (comme "décalé" ou "à deux paramètres") se réfère le plus classiquement à la version à un paramètre. Certaines personnes appellent la version décalée "la distribution exponentielle", mais c'est relativement rare; à peine plus courante que d'appeler la distribution lognormale décalée "la distribution lognormale".
Glen_b -Reinstate Monica
1
@ user603 Oh, désolé, une simple mauvaise communication - dans ce cas, oui, je ne pense pas que nous ayons de désaccord de fond - où il y a une possibilité de grandes valeurs aberrantes à gauche, l'approche que j'ai mentionnée n'a aucun sens . Je n'essayais tout simplement pas de faire face à une situation potentielle (mais pour ma défense, il ne me semblait pas que le PO l'ait considérée comme une possibilité - je doute que la prise de journaux me soit venue à l'esprit si c'était le cas).
Glen_b -Reinstate Monica
14

Je répondrai à vos questions dans l'ordre inverse dans lequel vous les avez posées, afin que l'exposé procède du spécifique au général.

Tout d'abord, considérons une situation dans laquelle vous pouvez supposer que, à l'exception d'une minorité de valeurs aberrantes, la majeure partie de vos données peut être bien décrite par une distribution connue (dans votre cas, l'exponentielle).

Si a un pdf:x

pX(x)=σ1exp((xθ)σ),x>0;σ>0

alors est censé suivre une distribution exponentielle (le cas spécial où nous fixons est appelé la distribution exponentielle à un paramètre ou standard).θ = 0xθ=0

L'estimateur MLE habituel des paramètres est [0, p 506]:

θ^=minixi

et

σ^=aveiximinixi

Voici un exemple dans R:

n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)

le MLE de est .σ2.08

Malheureusement, les estimations du MLE sont très sensibles à la présence de valeurs aberrantes. Par exemple, si je corromps l'échantillon en remplaçant 20% des par :xixi

m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)

le MLE de basé sur l'échantillon corrompu est maintenant (!). Comme deuxième exemple, si je corrompe l'échantillon en remplaçant 20% des par (disons si la décimale a été accidentellement mal placée):σ11.12xi100xi

m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)

le MLE de basé sur ce deuxième échantillon corrompu est maintenant (!).σ54

Une alternative au MLE brut consiste à (a) trouver les valeurs aberrantes à l'aide d'une règle d'identification des valeurs aberrantes robuste , (b) les mettre de côté en tant que données parasites et (c) calculer le MLE sur la partie non fausse de l'échantillon.

La règle d'identification des valeurs aberrantes la plus connue est la règle med / mad proposée par Hampel [3] qui l'a attribuée à Gauss (j'ai illustré cette règle ici ). Dans la règle med / mad, le seuil de rejet est basé sur l'hypothèse que les observations réelles dans votre échantillon sont bien approximées par une distribution normale.

Bien sûr, si vous avez des informations supplémentaires (comme savoir que la distribution des observations authentiques est bien approximée par une distribution de poisson comme dans cet exemple ), rien ne vous empêche de transformer vos données et d'utiliser la règle de rejet des valeurs aberrantes de base (la med / mad) mais cela me semble un peu gênant de transformer les données pour préserver ce qui est après tout une règle ad-hoc.

Il me semble beaucoup plus logique de conserver les données mais d'adapter les règles de rejet. Ensuite, vous utiliseriez toujours la procédure en 3 étapes que j'ai décrite dans le premier lien ci-dessus, mais avec un seuil de rejet adapté à la distribution, vous soupçonnez la bonne partie des données. Ci-dessous, je donne la règle de rejet dans les situations où les observations réelles sont bien ajustées par une distribution exponentielle. Dans ce cas, vous pouvez construire de bons seuils de rejet à l'aide de la règle suivante:

1) estimez utilisant [1]:θ

θ^=medixi3.476Qn(x)ln2

Le Qn est une estimation robuste de la diffusion qui n'est pas orientée vers des données symétriques. Il est largement mis en œuvre, par exemple dans le package R robustbase . Pour les données distribuées exponentielles, le Qn est multiplié par un facteur de cohérence de , voir [1] pour plus de détails.3.476

2) rejeter comme fausses toutes les observations en dehors de [2, p 188]

[θ^,9(1+2/n)medixi+θ^]

(le facteur 9 dans la règle ci-dessus est obtenu comme le 7.1 dans la réponse de Glen_b ci-dessus, mais en utilisant un seuil plus élevé. Le facteur (1 + 2 / n) est un facteur de correction de petit échantillon qui a été dérivé par des simulations dans [2]. Pour des échantillons suffisamment grands, il est essentiellement égal à 1).

3) utiliser le MLE sur les données non parasites pour estimer :σ

σ^=aveiHximiniHxi

où .H={i:θ^xi9(1+2/n)medixi+θ^}

en utilisant cette règle sur les exemples précédents, vous obtiendrez:

library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])

l'estimation robuste de est maintenant (très proche de la valeur MLE lorsque les données sont propres). Sur le deuxième exemple:2,05σ2.05

theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])

L'estimation robuste de est maintenant (très proche de la valeur que nous aurions obtenue sans les valeurs aberrantes).2,2σ2.2

Sur le troisième exemple:

theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])

L'estimation robuste de est maintenant (très proche de la valeur que nous aurions obtenue sans les valeurs aberrantes).2,2σ2.2

Un avantage secondaire de cette approche est qu'elle fournit un sous-ensemble d'index d'observations suspectes qui devraient être mis de côté du reste des données, peut-être à étudier comme objet d'intérêt à part entière (les membres de ).{i:iH}

Maintenant, pour le cas général où vous n'avez pas une bonne distribution candidate pour adapter la majeure partie de vos observations au-delà du fait de savoir qu'une distribution symétrique ne fera pas l'affaire, vous pouvez utiliser le boxplot ajusté [4]. Il s'agit d'une généralisation du boxplot qui prend en compte une mesure d'asymétrie (non paramétrique et aberrante robuste) de vos données (de sorte que lorsque la majeure partie des données est symétrique, elle se réduit au boxplot habituel). Vous pouvez également vérifier cette réponse pour une illustration.

  • [0] Johnson NL, Kotz S., Balakrishnan N. (1994). Distributions univariées continues, volume 1, 2e édition.
  • [1] Rousseeuw PJ et Croux C. (1993). Alternatives à la déviation absolue médiane. Journal de l'American Statistical Association, vol. 88, n ° 424, p. 1273-1283.
  • [2] JK Patel, CH Kapadia et DB Owen, Dekker (1976). Manuel des distributions statistiques.
  • [3] Hampel (1974). La courbe d'influence et son rôle dans une estimation robuste. Journal de l'American Statistical Association Vol. 69, n ° 346 (juin 1974), pp. 383-393.
  • [4] Vandervieren, E., Hubert, M. (2004) "Un boxplot ajusté pour les distributions asymétriques". Statistiques computationnelles et analyse des données Volume 52, numéro 12, 15 août 2008, pages 5186–5201.
user603
la source
1

Tout d'abord, je remettrais en question la définition, classique ou autre. Une "valeur aberrante" est un point surprenant. L'utilisation d'une règle particulière (même pour les distributions symétriques) est une idée erronée, surtout de nos jours quand il y a tellement d'énormes ensembles de données. Dans un ensemble de données de (disons) un million d'observations (pas si grandes, dans certains domaines), il y aura beaucoup de cas au-delà de la limite de 1,5 IQR que vous citez, même si la distribution est parfaitement normale.

Deuxièmement, je suggère de rechercher des valeurs aberrantes sur les données d'origine. Ce sera presque toujours plus intuitif. Par exemple, avec les données sur le revenu, il est assez courant de prendre des journaux. Mais même ici, je chercherais des valeurs aberrantes sur l'échelle d'origine (dollars ou euros ou autre) parce que nous avons une meilleure idée de ces chiffres. (Si vous prenez des journaux, je suggère la base de journaux 10, au moins pour la détection des valeurs aberrantes, car elle est au moins un peu intuitive).

Troisièmement, lorsque vous recherchez des valeurs aberrantes, méfiez-vous du masquage.

Enfin, je fais actuellement des recherches sur l'algorithme de «recherche vers l'avant» proposé par Atkinson et Riani pour différents types de données et de problèmes. Cela semble très prometteur.

Peter Flom - Réintégrer Monica
la source