Dans une définition classique d'une valeur aberrante en tant que point de données en dehors du 1.5 * IQR du quartile supérieur ou inférieur, il y a une hypothèse d'une distribution non asymétrique. Pour les distributions asymétriques (exponentielle, Poisson, géométrique, etc.) est le meilleur moyen de détecter une valeur aberrante en analysant une transformation de la fonction d'origine?
Par exemple, des distributions vaguement régies par une distribution exponentielle, pourraient être transformées avec une fonction log - à quel point est-il acceptable de rechercher des valeurs aberrantes basées sur la même définition IQR?
1.5*IQR
définition d'une valeur aberrante n'est pas universellement acceptée. Essayez de décharger votre question et développez le problème que vous essayez de résoudre.Réponses:
C'est la règle pour identifier les points en dehors des extrémités des moustaches dans un boxplot. Tukey lui-même s'opposerait sans aucun doute à les qualifier de valeurs aberrantes sur cette base (il ne considérait pas nécessairement les points en dehors de ces limites comme des valeurs aberrantes). Il s'agirait plutôt de points qui - si vos données devaient provenir d'une distribution quelque peu similaire à une distribution normale - on pourrait faire l'objet d'une enquête plus approfondie (comme vérifier que vous n'avez pas transposé deux chiffres, par exemple) - tout au plus ces pourrait être des valeurs aberrantes potentielles . Comme le souligne Nick Cox dans les commentaires sous cette réponse , une queue de beaucoup de ces points serait davantage considérée comme un indicateur qu'une ré-expression pourrait convenir que comme une indication de la nécessité de considérer les points comme des valeurs aberrantes.
J'ai supposé par «non biaisé» que vous voulez dire symétrique. L'hypothèse est plus que cela. Une distribution à queue lourde mais symétrique peut avoir de nombreux points en dehors des limites de cette règle.
Cela dépend de ce qui constitue une valeur aberrante à vos fins. Il n'y a pas de définition unique qui convient à chaque objectif - en effet, en général, vous feriez probablement mieux de faire d'autres choses que (par exemple) de repérer les valeurs aberrantes et de les omettre.
Pour l'exponentielle ou la géométrie, vous pourriez faire un calcul similaire à celui d'un boxplot, mais qui identifierait une fraction similaire dans la queue droite uniquement (vous n'aurez pas de points bas identifiés dans une exponentielle ou géométrique) ... ou vous pourriez faire autre chose.†
Les points de marquage supérieurs à 7,1 fois la médiane pour n = 1000 atteindront généralement entre 0,4% et 1,1% des valeurs:
Cela dépend totalement de ce que vous entendez par «acceptable». Notez cependant que -
i) la distribution résultante n'est pas réellement symétrique, mais nettement asymétrique à gauche.
En conséquence, vous ne marquerez généralement que des points à l' extrémité gauche (c'est-à-dire près de zéro, où vous vous attendez à ce que les valeurs exponentielles soient de toute façon) plutôt qu'à droite (où les "valeurs aberrantes" pourraient être), à moins qu'elles ne soient vraiment extrême.
ii) la pertinence d'une telle règle dépendra fortement de ce que vous faites.
Si vous êtes préoccupé par la valeur étrange et étrange affectant votre inférence, en général, il vaut probablement mieux utiliser des procédures robustes que d'identifier formellement les valeurs aberrantes.
Si vous voulez vraiment utiliser une règle basée sur la normale pour les données exponentielles ou de Poisson transformées, je suggérerais au moins de l'appliquer à la racine carrée pour un Poisson (tant que la moyenne n'est pas trop petite , il devrait être à peu près normal) et de cube racine ou même quatrième racine pour l'exponentielle (et peut-être, par extension, la géométrique).‡
√‡ ou peut-être , comme dans la transformation d'AnscombeX+38−−−−−√
Pour une exponentielle, dans les grands échantillons, l'approche de la racine cubique aura tendance à marquer des points uniquement dans la queue supérieure (à peu près au même rythme qu'elle les marque dans la queue supérieure pour une normale) et l'approche de la quatrième racine marque des points dans les deux queues (légèrement plus dans la queue inférieure, au total à quelque chose près de 40% du taux, il le fait pour une normale). Parmi les possibilités, la racine cubique a plus de sens pour moi que les deux autres, mais je ne conseillerais pas nécessairement de l'utiliser comme une règle dure et rapide.
la source
Je répondrai à vos questions dans l'ordre inverse dans lequel vous les avez posées, afin que l'exposé procède du spécifique au général.
Tout d'abord, considérons une situation dans laquelle vous pouvez supposer que, à l'exception d'une minorité de valeurs aberrantes, la majeure partie de vos données peut être bien décrite par une distribution connue (dans votre cas, l'exponentielle).
Si a un pdf:x
alors est censé suivre une distribution exponentielle (le cas spécial où nous fixons est appelé la distribution exponentielle à un paramètre ou standard).θ = 0x θ=0
L'estimateur MLE habituel des paramètres est [0, p 506]:
et
Voici un exemple dans
R
:le MLE de est .σ ≈2.08
Malheureusement, les estimations du MLE sont très sensibles à la présence de valeurs aberrantes. Par exemple, si je corromps l'échantillon en remplaçant 20% des par :xi −xi
le MLE de basé sur l'échantillon corrompu est maintenant (!). Comme deuxième exemple, si je corrompe l'échantillon en remplaçant 20% des par (disons si la décimale a été accidentellement mal placée):σ ≈11.12 xi 100xi
le MLE de basé sur ce deuxième échantillon corrompu est maintenant (!).σ ≈54
Une alternative au MLE brut consiste à (a) trouver les valeurs aberrantes à l'aide d'une règle d'identification des valeurs aberrantes robuste , (b) les mettre de côté en tant que données parasites et (c) calculer le MLE sur la partie non fausse de l'échantillon.
La règle d'identification des valeurs aberrantes la plus connue est la règle med / mad proposée par Hampel [3] qui l'a attribuée à Gauss (j'ai illustré cette règle ici ). Dans la règle med / mad, le seuil de rejet est basé sur l'hypothèse que les observations réelles dans votre échantillon sont bien approximées par une distribution normale.
Bien sûr, si vous avez des informations supplémentaires (comme savoir que la distribution des observations authentiques est bien approximée par une distribution de poisson comme dans cet exemple ), rien ne vous empêche de transformer vos données et d'utiliser la règle de rejet des valeurs aberrantes de base (la med / mad) mais cela me semble un peu gênant de transformer les données pour préserver ce qui est après tout une règle ad-hoc.
Il me semble beaucoup plus logique de conserver les données mais d'adapter les règles de rejet. Ensuite, vous utiliseriez toujours la procédure en 3 étapes que j'ai décrite dans le premier lien ci-dessus, mais avec un seuil de rejet adapté à la distribution, vous soupçonnez la bonne partie des données. Ci-dessous, je donne la règle de rejet dans les situations où les observations réelles sont bien ajustées par une distribution exponentielle. Dans ce cas, vous pouvez construire de bons seuils de rejet à l'aide de la règle suivante:
1) estimez utilisant [1]:θ
Le Qn est une estimation robuste de la diffusion qui n'est pas orientée vers des données symétriques. Il est largement mis en œuvre, par exemple dans le package R robustbase . Pour les données distribuées exponentielles, le Qn est multiplié par un facteur de cohérence de , voir [1] pour plus de détails.≈3.476
2) rejeter comme fausses toutes les observations en dehors de [2, p 188]
(le facteur 9 dans la règle ci-dessus est obtenu comme le 7.1 dans la réponse de Glen_b ci-dessus, mais en utilisant un seuil plus élevé. Le facteur (1 + 2 / n) est un facteur de correction de petit échantillon qui a été dérivé par des simulations dans [2]. Pour des échantillons suffisamment grands, il est essentiellement égal à 1).
3) utiliser le MLE sur les données non parasites pour estimer :σ
où .H={i:θ^′≤xi≤9(1+2/n)medixi+θ^′}
en utilisant cette règle sur les exemples précédents, vous obtiendrez:
l'estimation robuste de est maintenant (très proche de la valeur MLE lorsque les données sont propres). Sur le deuxième exemple:≈ 2,05σ ≈2.05
L'estimation robuste de est maintenant (très proche de la valeur que nous aurions obtenue sans les valeurs aberrantes).≈ 2,2σ ≈2.2
Sur le troisième exemple:
L'estimation robuste de est maintenant (très proche de la valeur que nous aurions obtenue sans les valeurs aberrantes).≈ 2,2σ ≈2.2
Un avantage secondaire de cette approche est qu'elle fournit un sous-ensemble d'index d'observations suspectes qui devraient être mis de côté du reste des données, peut-être à étudier comme objet d'intérêt à part entière (les membres de ).{i:i∉H}
Maintenant, pour le cas général où vous n'avez pas une bonne distribution candidate pour adapter la majeure partie de vos observations au-delà du fait de savoir qu'une distribution symétrique ne fera pas l'affaire, vous pouvez utiliser le boxplot ajusté [4]. Il s'agit d'une généralisation du boxplot qui prend en compte une mesure d'asymétrie (non paramétrique et aberrante robuste) de vos données (de sorte que lorsque la majeure partie des données est symétrique, elle se réduit au boxplot habituel). Vous pouvez également vérifier cette réponse pour une illustration.
la source
Tout d'abord, je remettrais en question la définition, classique ou autre. Une "valeur aberrante" est un point surprenant. L'utilisation d'une règle particulière (même pour les distributions symétriques) est une idée erronée, surtout de nos jours quand il y a tellement d'énormes ensembles de données. Dans un ensemble de données de (disons) un million d'observations (pas si grandes, dans certains domaines), il y aura beaucoup de cas au-delà de la limite de 1,5 IQR que vous citez, même si la distribution est parfaitement normale.
Deuxièmement, je suggère de rechercher des valeurs aberrantes sur les données d'origine. Ce sera presque toujours plus intuitif. Par exemple, avec les données sur le revenu, il est assez courant de prendre des journaux. Mais même ici, je chercherais des valeurs aberrantes sur l'échelle d'origine (dollars ou euros ou autre) parce que nous avons une meilleure idée de ces chiffres. (Si vous prenez des journaux, je suggère la base de journaux 10, au moins pour la détection des valeurs aberrantes, car elle est au moins un peu intuitive).
Troisièmement, lorsque vous recherchez des valeurs aberrantes, méfiez-vous du masquage.
Enfin, je fais actuellement des recherches sur l'algorithme de «recherche vers l'avant» proposé par Atkinson et Riani pour différents types de données et de problèmes. Cela semble très prometteur.
la source