Diagramme en boîte et moustache pour la distribution multimodale

13

Puis-je utiliser des diagrammes en boîte et moustaches également pour la distribution multimodale ou uniquement pour la distribution unimodale?

user1091344
la source
Le terme habituel pour une distribution avec plus d'un mode serait « multimodal ». Si c'est ce que vous voulez dire, veuillez modifier pour utiliser le terme habituel. Si vous voulez dire autre chose, veuillez définir le terme.
Glen_b -Reinstate Monica
1
Les diagrammes en boîte ne sont pas toujours utiles pour les formes de distribution complexes. Les formes bimodales ... multimodales (je suppose que c'est un terme plus courant que "polymodal") seront souvent cachées. Tout dépend de la force de la rupture avec l'unimodalité. Sinon, aucune cloche ne sonnera et aucun message d'erreur ne s'ensuivra. Mais même un histogramme ou une estimation de la densité du noyau peut réduire les distributions complexes; certains considèrent cela comme une fonctionnalité car il est facile d'être trop acceptant des modes qui ne sont que des bizarreries dans un échantillon. Je dirais que le seul type de graphique qui ne perd pas d'informations est un graphique quantile.
Nick Cox
@Glen_b je l'ai fait. Dans mon livre, ils parlent de distrubution polymodale. Unimodal pour un pic est-il correct?
user1091344
1
Vous pouvez certainement utiliser une boîte à moustaches - qui vous arrêterait? Le problème est que le boxplot habituel ne donne aucune indication sur le nombre de modes (bien qu'il y ait des modifications de boxplots qui peuvent indiquer la multimodalité). Les boîtes à moustaches sont meilleures lorsque l'intérêt se concentre sur les comparaisons intergroupes de l'emplacement et de la répartition (sur de nombreux groupes) plutôt que lorsque la forme de la distribution présente un intérêt direct. S'il est important de montrer la multimodalité - surtout s'il y a peu de groupes - je suggérerais fortement d'utiliser un affichage différent, ou peut-être plusieurs. (
J'élargirai
1
Vos preuves ne nous incitent pas à bien penser à ce livre.
Nick Cox

Réponses:

20

Le problème est que le boxplot * habituel ne peut généralement pas donner une indication du nombre de modes. Alors que dans certaines circonstances (généralement rares) il est possible d'obtenir une indication claire que le plus petit nombre de modes dépasse 1, le plus souvent un boxplot donné est cohérent avec un ou n'importe quel plus grand nombre de modes.

* Plusieurs modifications des types habituels de boîtes à moustaches ont été suggérées, ce qui en fait plus pour indiquer les changements de densité et de came à utiliser pour identifier plusieurs modes, mais je ne pense pas que ce soit le but de cette question.

Par exemple, alors que cette parcelle n'indique la présence d'au moins deux modes (les données ont été générées de façon à avoir exactement deux) -

entrez la description de l'image ici

à l'inverse, celui-ci a deux modes très clairs dans sa distribution, mais vous ne pouvez tout simplement pas le dire du boxplot:

entrez la description de l'image ici

Les boxplots ne transmettent pas nécessairement beaucoup d'informations sur la distribution. En l'absence de points marqués à l'extérieur des moustaches, ils ne contiennent que cinq valeurs, et un résumé à cinq chiffres ne précise pas beaucoup la distribution . Cependant, la première figure ci-dessus montre un cas où le cdf est suffisamment "épinglé" pour exclure essentiellement une distribution unimodale (au moins à la taille de l'échantillon de 100) - aucun cdf unimodal n'est compatible avec les contraintes sur le cdf dans ce cas, qui nécessite une hausse relativement forte au premier trimestre, un aplatissement à (en moyenne) un faible taux d'augmentation au milieu du semestre puis une nouvelle forte hausse au dernier trimestre.n=

En effet, la figure 1 ici (qui, je crois, est un document de travail publié plus tard dans [1]) montre quatre ensembles de données différents avec la même boîte à moustaches.

Je n'ai pas ces données à portée de main, mais il est trivial de créer un ensemble de données similaire - comme indiqué dans le lien ci-dessus relatif au résumé à cinq chiffres, nous n'avons qu'à contraindre nos distributions à se situer dans les cases rectangulaires que le résumé de cinq chiffres nous limite.

Voici le code R qui générera des données similaires à celles du document:

x1 = qnorm(ppoints(1:100,a=-.072377))
x1 = x1/diff(range(x1))*18+10
b = fivenum(x1)  # all of the data has this five number summary
x2 = qnorm(ppoints(1:48));x2=x2/diff(range(x2))*.6
x2 = c(b[1],x2+b[2],.31+b[2],b[4]-.31,x2+b[4],b[5])
d = .1183675; x3 = ((0:34)-34/2)/34*(9-d)+(5.5-d/2)
x3 = c(x3,rep(9.5,15),rep(10.5,15),20-x3)
x4 = c(1,rep(b[2],24),(0:49)/49*(b[4]-b[2])+b[2],(0:24)/24*(b[5]-b[4])+b[4])

Voici un affichage similaire à celui du document, des données ci-dessus (sauf que je montre les quatre boîtes à moustaches ici):

entrez la description de l'image ici

Attention cependant - les histogrammes peuvent aussi avoir des problèmes ; en effet, nous voyons ici un de ses problèmes, parce que la distribution dans le troisième histogramme "en pointe" est en fait nettement bimodale; la largeur de l'histogramme est simplement trop large pour le montrer. De plus, comme le souligne Nick Cox dans les commentaires, les estimations de la densité du noyau peuvent également affecter l'impression du nombre de modes (parfois étalant les modes ... ou suggérant parfois de petits modes là où il n'y en a pas dans la distribution d'origine). Il faut faire attention à l'interprétation de nombreux affichages courants.

Il y a des modifications du boxplot qui peuvent mieux indiquer la multimodalité (parcelles de vase, parcelles de violon et parcelles de haricots, entre autres). Dans certaines situations, ils peuvent être utiles, mais si je suis intéressé par la recherche de modes, je vais généralement regarder un autre type d'affichage.

x4

[1]: Choonpradub, C., & McNeil, D. (2005),
"Le boxplot peut-il être amélioré?"
Songklanakarin J. Sci. Technol. , 27 : 3, pp. 649-657.
http://www.jourlib.org/paper/2081800
pdf

Glen_b -Reinstate Monica
la source
2
Deux commentaires plus larges sur les modes. 1. Un bon test d'un modèle particulier de modalité est de savoir s'il se reproduit à plusieurs reprises dans des échantillons de la même taille. D'après mon expérience, les modes peuvent être extrêmement inconstants dans ce sens. 2. Lors de l'examen des modes, il vaut toujours la peine de se demander si un mode a une interprétation substantielle. Mais chaque argument peut être faux; si je me souviens bien, la plupart des gens devineraient qu'un mélange d'hommes et de femmes conférerait une bimodalité à la distribution des hauteurs, mais il est difficile de détecter cela même dans des échantillons de grande qualité.
Nick Cox
1
@NickCox thanks; en fait, j'aurais deviné que les hauteurs ne seraient pas bimodales; imaginez que (comme une approximation approximative de la réalité) nous avons considéré deux distributions normales avec des écarts-types similaires, dont les moyennes diffèrent d'environ 1 sd, avec environ autant d'hommes que de femmes. Alors en fait la distribution combinée (mélange de deux normales) est unimodale. La réalité est un peu plus complexe, bien sûr - les deux distributions sont des mélanges de groupes ethniques, sont asymétriques même au sein des sexes et des groupes ethniques, ont des variances différentes et les moyens diffèrent de plus de 1sd, mais le résultat (unimodalité) ne devrait pas nous surprendre
Glen_b -Reinstate Monica
3
Il convient de signaler que JW Tukey dans son analyse exploratoire des données (Reading, MA: Addison-Wesley, 1977) a inclus un diagramme à points des données de Rayleigh, qui a conduit à la découverte de l'argon, en tant que motif bimodal pour lequel les diagrammes à boîte sont inutiles et un autre afficher, dans le cas de Tukey, un tracé de points, est nécessaire pour voir la structure. Tukey, comme on le sait, a nommé l'intrigue et n'est pas si bien connu était son ré-inventeur.
Nick Cox
7

Il existe plusieurs options pour détecter la multimodalité avec R. Les données des graphiques ci-dessous ont été générées avec trois modes (-3,0,1). Le boxplot est clairement surpassé par les autres (l'intrigue du violon semble avoir des paramètres de densité de noyau par défaut différents), mais aucun ne fait vraiment de distinction entre les modes 0 et 1. Il y a vraiment très peu de raisons d'utiliser des boxplots à l'ère informatique. Pourquoi jeter des informations?

entrez la description de l'image ici

dat <- c(rnorm(500, -3, 1), rnorm(200, 0, 1), rnorm(300, 1, 1))

par(mfrow=c(2, 2))
boxplot(dat, horizontal=TRUE, main="Boxplot")

require(beanplot)
beanplot(dat, horizontal=TRUE, main="Beanplot")

require(viopoints)
viopoints(dat, horizontal=TRUE, main="Viopoints")

require(vioplot)
vioplot(dat, horizontal=TRUE)
title("Violin Plot")
Livide
la source