J'aimerais savoir s'il existe une variante de boîte à moustaches adaptée aux données distribuées de Poisson (ou éventuellement à d'autres distributions)?
Avec une distribution gaussienne, des moustaches placées à L = Q1 - 1,5 IQR et U = Q3 + 1,5 IQR, le diagramme à moustaches possède la propriété qu'il y aura à peu près autant de points aberrants bas (points en dessous de L) que de points aberrants (points supérieurs à U ).
Cependant, si les données sont distribuées de Poisson, cela ne tient plus à cause de l’asymétrie positive que nous obtenons Pr (X <L) <Pr (X> U) . Existe-t-il un autre moyen de placer les moustaches de sorte qu’elles «correspondent» à une distribution de Poisson?
Réponses:
Les boîtes à moustaches n'ont pas été conçues pour garantir une faible probabilité de dépasser les extrémités des moustaches: elles sont destinées à, et sont généralement utilisées, comme simples caractérisations graphiques de la majeure partie d'un jeu de données. En tant que telles, elles sont correctes même lorsque les distributions de données sont très asymétriques (bien qu’elles ne révèlent peut-être pas autant d’informations qu’elles ne le font à propos de distributions approximatives non modifiées).
Lorsque les boîtes à moustaches deviennent asymétriques, comme c'est le cas avec une distribution de Poisson, l'étape suivante consiste à réexprimer la variable sous-jacente (avec une transformation monotone croissante) et à redessiner les boîtes à moustaches. Comme la variance d'une distribution de Poisson est proportionnelle à sa moyenne, la racine carrée est une bonne transformation à utiliser.
Chaque boîte à moustaches représente 50 tirages d'une distribution de Poisson d'une intensité donnée (de 1 à 10, avec deux essais pour chaque intensité). Notez que l'asymétrie a tendance à être faible.
Les mêmes données sur une échelle de racine carrée ont tendance à avoir des boîtes à moustaches légèrement plus symétriques et (sauf pour l'intensité la plus faible), des IQR approximativement égaux, quelle que soit l'intensité).
En résumé, ne changez pas l'algorithme de boîte à moustaches: ré-exprimez les données à la place.
Soit dit en passant, les chances pertinentes à calcul sont celles - ci: quelle est la probabilité qu'une variate normale indépendante dépassera la barrière supérieure (inférieure) U ( L ) estimée à partir n indépendant tire de la même distribution?X U L n Cela explique le fait que les clôtures d'une boîte à moustaches ne sont pas calculées à partir de la distribution sous-jacente mais sont estimées à partir des données. Dans la plupart des cas, les chances sont beaucoup plus grandes que 1%! Par exemple, voici (sur 10 000 essais de Monte-Carlo) un histogramme du log (base 10) des chances pour le cas :n = 9
(La distribution normale étant symétrique, cet histogramme s'applique aux deux clôtures.) Le logarithme de 1% / 2 est d'environ -2,3. De toute évidence, la probabilité est la plupart du temps supérieure à celle-ci. Environ 16% du temps, il dépasse 10%!
la source
À ma connaissance, il existe une généralisation de la boîte à moustaches standard dans laquelle les longueurs des moustaches sont ajustées pour tenir compte de données asymétriques. Les détails sont mieux expliqués dans un livre blanc très clair et concis (Vandervieren, E., Hubert, M. (2004) "Une boîte à moustaches ajustée pour les distributions asymétriques", voir ici ).
Il existe une implémentation de ( ) ainsi que matlab (dans une bibliothèque appelée ).R librarobustbase::adjbox() libra
Je trouve personnellement que c'est une meilleure alternative à la transformation de données (bien qu'elle soit également basée sur une règle ad-hoc, voir le livre blanc).
Incidemment, je trouve que j'ai quelque chose à ajouter à l'exemple de Whuber ici. Dans la mesure où nous discutons du comportement des moustaches, nous devrions également considérer ce qui se passe lorsque l'on considère des données contaminées:
Dans ce modèle de contamination, B1 a essentiellement une distribution log-normale sauf pour 20% des données qui sont à moitié gauche, à moitié à droite (le point de rupture de adjbox est le même que celui des boîtes à moustaches ordinaires 25% des données peuvent être mauvaises).
Les graphiques décrivent les boîtes à moustaches classiques des données transformées (en utilisant la transformation de la racine carrée)
et la boîte à moustaches ajustée des données non transformées.
Comparée aux boîtes à moustaches ajustées, la première option masque les valeurs aberrantes réelles et qualifie les bonnes données de valeurs aberrantes. En général, il sera bon de dissimuler toute preuve d'asymétrie dans les données en classant les points incriminés comme des points aberrants.
Dans cet exemple, l'approche consistant à utiliser la boîte à moustaches standard à la racine carrée des données trouve 13 valeurs aberrantes (toutes à droite), tandis que la boîte à moustiquaire ajustée trouve 10 valeurs éloignées à droite et 14 à gauche.
EDIT: box complots ajustés en un mot.
Dans les boîtes à moustaches classiques, les moustaches sont placées à:
Q 3Q1 -1.5 * IQR et + 1.5 * IQRQ3
où IQR est la plage inter-quantile, est le 25e centile et est le 75e centile des données. La règle de base est de considérer tout ce qui se trouve en dehors de la clôture comme des données douteuses (la clôture correspond à l'intervalle entre les deux moustaches).Q 3Q1 Q3
Cette règle empirique est ad-hoc: la justification est que si la partie non contaminée des données est approximativement gaussienne, moins de 1% des bonnes données seraient classées comme mauvaises en utilisant cette règle.
Comme le fait remarquer le PO, une des faiblesses de cette règle de clôture est que la longueur des deux moustaches est identique, ce qui signifie que la règle de clôture n'a de sens que si la partie non contaminée des données a une distribution symétrique.
Une approche populaire consiste à préserver la règle de clôture et à adapter les données. L'idée est de transformer les données en utilisant des transformations monotones correctrices asymétriques (transformations de racine carrée ou de log ou plus généralement de transformées box-cox). C'est une approche quelque peu confuse: elle repose sur une logique circulaire (la transformation doit être choisie de manière à corriger l'asymétrie de la partie non contaminée des données, qui est à ce stade inobservable) et tend à rendre les données plus difficiles à interpréter visuellement. En tout état de cause, cela reste une procédure étrange selon laquelle on modifie les données pour conserver ce qui est après tout une règle ad hoc.
Une alternative consiste à laisser les données intactes et à modifier la règle de la moustache. La boîte à moustaches ajustée permet à la longueur de chaque moustache de varier en fonction d'un index mesurant l'asymétrie de la partie non contaminée des données:
exp ( M , α ) Q 3 exp ( M , β )Q1 - 1.5 * IQR et + 1.5 * IQRexp(M,α) Q3 exp(M,β)
Où est un indice d'asymétrie de la partie non contaminée des données (c'est-à-dire que la médiane est une mesure de localisation pour la partie non contaminée des données ou du MAD une mesure de la dissémination pour la partie non contaminée des données) et sont des nombres choisis tels que, pour les distributions asymétriques non contaminées, la probabilité de mentir à l'extérieur de la clôture soit relativement faible pour une vaste collection de distributions asymétriques (il s'agit de la partie ad-hoc de la règle de clôture).α βM α β
Pour les cas où la bonne partie des données est symétrique, et nous revenons aux moustaches classiques.M≈0
Les auteurs suggèrent d’utiliser le couple med comme estimateur de (voir référence dans le livre blanc) en raison de sa grande efficacité (bien qu’en principe, tout indice de biais important puisse être utilisé). Avec ce choix de , ils ont ensuite calculé les valeurs optimales et empiriquement (en utilisant un grand nombre de distributions asymétriques) comme suit:M α βM M α β
exp ( - 4 M ) Q 3 exp ( 3 M ) M ≥ 0Q1 - 1.5 * IQR et + 1.5 * IQR, siexp(−4M) Q3 exp(3M) M≥0
la source