Qu'est-ce qu'un 'bagplot' ou un 'boxplot bivarié'?

11

J'ai trouvé un article qui présente la version multidimensionnelle (bivariée ici) du boxplot - un bagplot. Qu'est-ce que cette parcelle exactement? Je peux voir la série de polygones imbriqués basés sur des sommets, l'un de ces polygones étant déclaré comme un bagplot. Quelle est l'idée de la construction de polygones imbriqués? Lequel des polygones est la parcelle (centrale ou contenant le nombre moyen de points)? Les bords d'une parcelle possèdent-ils des propriétés utiles (comme la division spécifique de l'ensemble de points)?

mbaitoff
la source
3
Il y a un article de Rousseeuw, Pits et Tukey dans American Statistician qui explique cela. J'ai, pour une raison quelconque, du mal à coller le lien, mais googler "bagplot" et "Tukey" le trouvera
Peter Flom - Reinstate Monica
1
Je ne l'ai trouvé que pour un prix scandaleux. Toujours à la recherche.
mbaitoff
1
Si vous avez accès à une bibliothèque décente, ils devraient l'avoir. Le statisticien américain est assez largement abonné. Il y avait aussi quelque chose sur quora, mais je ne l'ai pas regardé.
Peter Flom - Réintègre Monica
2
Rousseeuw et Ruts ont un autre article en ligne en plus de celui du statisticien américain au format postscript gratuitement.
Andy W
@AndyW, vous demander en tant que boursier SPSS: comment pensez-vous qu'il est possible de le faire via GPL d'une manière ou d'une autre? Allez-vous inventer le code pour nous SPSSers?
ttnphns

Réponses:

13

Voici un exemple avec des notes:

Voici l'article The Bagplot: A Bivariate Boxplotde Peter J. Rousseeuw, Ida Ruts & John W. Tukey de The American Statistician: http://venus.unive.it/romanaz/ada2/bagplot.pdf

Du résumé de cet article:

La «médiane de profondeur» est l'emplacement le plus profond, et elle est entourée d'un «sac» contenant les n / 2 observations avec la plus grande profondeur. L'agrandissement du sac d'un facteur 3 donne la «clôture» (qui n'est pas tracée). Les observations entre le sac et la clôture sont marquées par une boucle gris clair, tandis que les observations à l'extérieur de la clôture sont signalées comme des valeurs aberrantes. La représentation graphique visualise l'emplacement, la propagation, la corrélation, l'asymétrie et la queue des données.

Voici une illustration des éléments clés:

entrez la description de l'image ici

Une discussion supplémentaire peut être trouvée dans ce qui suit:

À partir des documents d' aide du aplpackpackage (pour les Rutilisateurs):

Un bagplot est une généralisation bivariée du boxplot bien connu. Il a été proposé par Rousseeuw, Ruts et Tukey. Dans le cas bivarié, la boîte du boxplot se transforme en coque convexe, le sac de bagplot. Dans le sac sont 50 pour cent de tous les points. La clôture sépare les points de la clôture des points extérieurs. Il est calculé en augmentant le sac. La boucle est définie comme le polygone convexe contenant tous les points à l'intérieur de la clôture. Si tous les points sont sur une ligne droite, vous obtenez un boxplot classique. bagplot () parcelles des parcelles qui sont très similaires à celle décrite dans Rousseeuw et al. Remarques: La médiane bidimensionnelle est approximative. Il y a des difficultés connues avec de petits ensembles de données (mais je pense qu'il n'est pas sage de faire un résumé (graphique) de par exemple 10 points.)

Dans le cas où les gens veulent tracer plusieurs parcelles (superposées), il est pratique que les parcelles soient semi-transparentes. Pour cette raison, l'indicateur de transparence a été ajouté à la commande bagplot. Si transparence == TRUE, la couche alpha est définie sur '99' (hex). Cela fait que les plots apparaissent semi-transparents, mais UNIQUEMENT si le périphérique de sortie est PDF et ouvert en utilisant: pdf (file = "filename.pdf", version = "1.4"). Pour cette raison, la valeur par défaut est la transparence == FAUX. Cette fonctionnalité ainsi que les arguments pour spécifier différentes couleurs ont été proposés par Wouter Meuleman.

Et un exemple:

library(aplpack)
attach(mtcars)
bagplot(wt, mpg, xlab="Car Weight", 
        ylab="Miles Per Gallon",
        main="Bagplot Example", 
        transparency = TRUE, 
        show.whiskers = FALSE, 
        # note that data a 'fence' separates inliers from outliers, 
        # and a 'loop' indicates the points outside the bag but 
        # inside the fence. In the 'bag' are 50 percent of all 
        # points
        show.loophull = TRUE, # draw 'loop'?
        show.baghull = TRUE)  # draw 'bag'?

entrez la description de l'image ici

questions connexes:

Ben
la source
4
Mise à jour: quelqu'un a créé un geom ggplot2 pour cela: gist.github.com/benmarwick/00772ccea2dd0b0f1745 . peut-être qu'un utilisateur entreprenant pourrait en faire un package?
shadowtalker