Quelle est l'histoire des boîtes à moustaches et comment la conception des «boîtes et moustaches» a-t-elle évolué?

19

De nombreuses sources datent de la conception classique de « boîte à moustaches » à John Tukey et son « complot schématique » de 1970. La conception semble être restée relativement stable depuis lors, avec Edward Tufte dénudation version de la parcelle de boîte ne pas accrocher, alors que les complots de violon - bien qu'une variante plus informative du complot de boîte - restent moins populaires. La suggestion de Cleveland selon laquelle les moustaches s'étendent jusqu'aux 10e et 90e centiles a quelques partisans, voir Cox (2009) , mais n'est pas la norme.

Hadley Wickham et Lisa Stryjewski ont écrit un article non publié sur l'histoire des parcelles, mais il ne semble pas couvrir les précurseurs historiques des parcelles.

Alors, comment le complot actuel "boîte et moustaches" est-il né? De quel type de visualisation des données est-il issu, ces conceptions antérieures présentaient-elles des avantages importants et pourquoi semblent-elles avoir été éclipsées de manière si complète par le schéma de Tukey? Une réponse illustrée serait un bonus, mais être dirigé vers une référence qui plonge plus profondément historiquement que Wickham et Stryjewski serait utile.

Les références

  • Cox, NJ (2009). Speaking Stata: Création et variation de diagrammes en boîte. Journal Stata , 9 (3), 478.
  • Wickham, H. et Stryjewski, L. (2011). 40 ans de boxplots. http://vita.had.co.nz/papers/boxplots.pdf
Silverfish
la source
1
Quelques discussions pertinentes sur un certain nombre de précurseurs ici: stats.stackexchange.com/questions/125521/… ... Tukey était au courant du travail de Mary Spears, mais il est possible qu'il n'ait vu aucun des précédents
Glen_b -Reinstate Monica
Merci @Glen_b, c'est bien la discussion que j'ai lue qui a inspiré cette question, mais il m'a fallu 4 ans pour la poser et je n'ai pas pu retrouver la discussion! (Malheureusement, les commentaires n'apparaissent pas dans la recherche sur le site, c'est pourquoi il serait utile d'essayer de l'intégrer dans une Q&R appropriée.)
Silverfish
1
J'utilise la recherche google avec site:stats.stackexchange.comset pour retrouver des trucs dans les commentaires. J'ai pu me souvenir de suffisamment de détails (qu'il s'agissait d'une discussion entre Nick et moi concernant les boxplots et que j'avais mentionné Schmid) pour obtenir le premier coup.
Glen_b -Reinstate Monica
1
Q1-1,5jeQRQ3+1,5jeQR3jeQRn.2,25jeQR
1
github.com/hadley/boxplots-paper comprend de nombreux éléments, tels que les rapports des examinateurs anonymes d'un journal (? _American Statistician_) (bref et décourageant) et des critiques indépendantes mais chevauchantes non sollicitées de David Hoaglin et de moi-même (toutes deux beaucoup plus détaillées).
Nick Cox

Réponses:

18

Résumé du chef de la direction

L'histoire est beaucoup plus longue et compliquée que beaucoup de gens ne le pensent.

Résumé

L'histoire de ce que Tukey appelait des boîtes à moustaches est enchevêtrée avec celle de ce que l'on appelle maintenant souvent des parcelles à points ou à bandes (des dizaines d'autres noms) et des représentations de la fonction quantile empirique.

Les boîtes à moustaches sous des formes largement courantes sont mieux connues grâce aux travaux de John Wilder Tukey (1970, 1972, 1977).

Mais l'idée de montrer la médiane et les quartiles comme des résumés de base - ensemble souvent mais pas toujours avec des points montrant toutes les valeurs - remonte au moins aux diagrammes de dispersion (plusieurs noms de variantes) introduits par le géographe Percy Robert Crowe (1933). C'étaient des aliments de base pour les géographes et utilisés dans de nombreux manuels ainsi que dans des documents de recherche à partir de la fin des années 1930.

Bibby (1986, pp.56, 59) a fait référence encore plus tôt à des idées similaires enseignées par Arthur Lyon Bowley (plus tard Sir Arthur) dans ses conférences sur 1897 et à sa recommandation (Bowley, 1910, p.62; 1952, p.73 ) d'utiliser le minimum et le maximum et 10, 25, 50, 75 et 90% comme base pour le résumé graphique.

Les barres de fourchette montrant les extrêmes et les quartiles sont souvent attribuées à Mary Eleanor Spear (1952) mais dans ma lecture, moins de gens citent Kenneth W. Haemer (1948). Les articles de Haemer sur les graphiques statistiques dans le Statisticien américain vers 1950 étaient inventifs et ont une touche critique et méritent d'être relus. (De nombreux lecteurs pourront y accéder via jstor.org.) En revanche, les livres de Spear (Spear 1969 est une refonte) étaient accessibles et sensés mais délibérément introductifs plutôt qu'innovants ou savants.

Les variantes des boîtes à moustaches dans lesquelles les moustaches s'étendent aux centiles sélectionnés sont plus courantes que beaucoup de gens ne le pensent. Encore une fois, des parcelles équivalentes ont été utilisées par les géographes à partir des années 1930.

Ce qui est le plus original dans la version de Tukey des diagrammes à boîte est d'abord des critères pour identifier les points dans les queues à tracer séparément et identifiés comme méritant un examen détaillé - et comme signalant souvent qu'une variable doit être analysée à une échelle transformée. Sa règle empirique de 1,5 IQR n'est apparue qu'après de nombreuses expérimentations. Il a muté entre certaines mains en une règle stricte pour supprimer des points de données, ce qui n'a jamais été l'intention de Tukey. Un nom percutant et mémorable - l'intrigue - n'a pas nui à assurer un impact beaucoup plus large de ces idées. Le diagramme de dispersion en revanche est plutôt un terme ennuyeux et morne.

La liste assez longue de références ici, peut-être contrairement aux apparences, ne prétend pas être exhaustive. Le but est simplement de fournir de la documentation pour certains précurseurs et alternatives de l'intrigue. Des références spécifiques peuvent être utiles pour des requêtes détaillées ou si elles sont proches de votre domaine. Inversement, l'apprentissage des pratiques dans d'autres domaines peut être salutaire. L'expertise graphique - et pas seulement cartographique - des géographes a souvent été sous-estimée.

Plus de détails

Des parcelles à points hybrides ont été utilisées par Crowe (1933, 1936), Matthews (1936), Hogg (1948), Monkhouse et Wilkinson (1952), Farmer (1956), Gregory (1963), Hammond et McCullagh (1974), Lewis (1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild et Seber (2000), Quinn et Keough (2002), Young et al. (2006) et Hendry et Nielsen (2007) et bien d'autres. Voir aussi Miller (1953, 1964).

Tracer des moustaches à des centiles particuliers, plutôt qu'à des points de données dans autant d'IQR des quartiles, a été souligné par Cleveland (1985), mais anticipé par Matthews (1936) et Grove (1956) qui ont tracé la plage interoctile, c'est-à-dire entre le premier et le septièmes octiles, ainsi que la plage et la plage interquartile. Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt et Johnson (2009, 2011) et Davino et al. (2014) ont montré les moyennes ainsi que le minimum, les quartiles, la médiane et le maximum. Schmid (1954) a montré des graphiques sommaires avec médiane, quartiles et 5 et 95% points. Bentley (1985, 1988), Davis (2002), Spence (2007, 2014) et Motulsky (2010, 2014, 2018) ont tracé les moustaches à 5 et 95% des points. Morgan et Henrion (1990, pp.221, 241), Spence (2001, p.36), et Gotelli et Ellison (2004, 2013, pp.72, 110, 213, 416) a tracé les moustaches à 10% et 90% points. Harris (1999) a montré des exemples de 5 et 95% et de 10 et 90% points. Altman (1991, pp.34, 63) et Greenacre (2016) ont tracé les moustaches à 2,5% et 97,5% points. Reimann et al. (2008, pp.46-47) ont tracé les moustaches à 5% et 95% et 2% et 98% points.

Parzen (1979a, 1979b, 1982) a hybridé les diagrammes à boîte et quantile en tant que diagrammes à boîte à quantile. Voir également (par exemple) Shera (1991), Militký et Meloun (1993), Meloun et Militký (1994). Il convient toutefois de noter que le diagramme en boîte quantile de Keen (2010) n'est qu'un diagramme en boîte avec des moustaches s'étendant jusqu'aux extrêmes. En revanche, les diagrammes en boîtes quantiles de JMP sont évidemment des boîtes en boîtes avec des notes à 0,5%, 2,5%, 10%, 90%, 97,5%, 99,5%: voir Sall et al. (2014, pp.143-4).

Voici quelques notes sur les variantes des diagrammes à boîte quantile.

pp,1-p-p,1-p

p,1-p

D'après la littérature que j'ai vue, il semble qu'aucun de ces fils - les diagrammes à boîte quantile ou les variantes ultérieures (A) (B) (C) - ne se cite.

!!! au 3 octobre 2018, les détails de certaines références doivent être fournis dans la prochaine édition.

Altman, DG 1991. Statistiques pratiques en recherche médicale. Londres: Chapman et Hall.

Bentley, JL 1985. Programmation des perles: sélection. Communications de l'ACM 28: 1121-1127.

Bentley, JL 1988. More Programming Pearls: Confessions of a Coder. Reading, MA: Addison-Wesley.

Bibby, J. 1986. Notes Vers une histoire des statistiques de l'enseignement. Édimbourg: John Bibby (Livres).

Bowley, AL 1910. Un manuel élémentaire de statistiques. Londres: Macdonald et Evans. (septième édition 1952)

Cleveland, WS 1985. Éléments de données graphiques. Monterey, Californie: Wadsworth.

Crowe, PR 1933. L'analyse de la probabilité des précipitations: une méthode graphique et son application aux données européennes. Scottish Geographical Magazine 49: 73-91.

Crowe, PR 1936. Le régime pluviométrique des plaines occidentales. Revue géographique 26: 463-484.

Davis, JC 2002. Statistiques et analyse des données en géologie. New York: John Wiley.

Dickinson, GC 1963. Cartographie statistique et présentation des statistiques. Londres: Edward Arnold. (deuxième édition 1973)

Dury, GH 1963. Les East Midlands et le Peak. Londres: Thomas Nelson.

Agriculteur, BH 1956. Précipitations et approvisionnement en eau dans la zone sèche de Ceylan. In Steel, RW et CA Fisher (eds) Geographical Essays on British Tropical Lands. Londres: George Philip, 227-268.

Gregory, S. 1963. Méthodes statistiques et géographe. Londres: Longmans. (éditions ultérieures 1968, 1973, 1978; éditeur plus tard Longman)

Grove, AT 1956. Érosion des sols au Nigéria. In Steel, RW et CA Fisher (eds) Geographical Essays on British Tropical Lands. Londres: George Philip, 79-111.

Haemer, KW 1948. Diagrammes à barres de portée. Statisticien américain 2 (2): 23.

Hendry, DF et B. Nielsen. 2007. Modélisation économétrique: une approche par vraisemblance. Princeton, NJ: Princeton University Press.

Hogg, WH 1948. Diagrammes de dispersion des précipitations: une discussion de leurs avantages et inconvénients. Géographie 33: 31-37.

Ibrekk, H. et MG Morgan. 1987. Communication graphique de quantités incertaines à des personnes non techniques. Analyse des risques 7: 519-529.

Johnson, BLC 1975. Bangladesh. Londres: Heinemann Educational.

Keen, KJ 2010. Graphics for Statistics and Data Analysis avec R. Boca Raton, FL: CRC Press. (2e édition 2018)

Lewis, CR 1975. L'analyse des changements de statut urbain: une étude de cas dans le centre du Pays de Galles et la frontière galloise moyenne. Transactions de l'Institute of British Geographers 64: 49-65.

Martinez, WL, AR Martinez et JL Solka. 2011. Analyse exploratoire des données avec MATLAB. Boca Raton, FL: CRC Press.

Matthews, HA 1936. Une nouvelle vue de quelques pluies indiennes familières. Scottish Geographical Magazine 52: 84-97.

Matthews, JA 1981. Approches quantitatives et statistiques de la géographie: manuel pratique. Oxford: Pergame.

Meloun, M. et J. Militký. 1994. Traitement de données assisté par ordinateur en chimiométrie analytique. I. Analyse exploratoire des données univariées. Chemical Papers 48: 151-157.

Militký, J. et M. Meloun. 1993. Quelques outils graphiques pour l'analyse exploratoire univariée des données. Analytica Chimica Acta 277: 215-221.

Miller, AA 1953. La peau de la Terre. Londres: Methuen. (2e édition 1964)

Monkhouse, FJ et HR Wilkinson. 1952. Cartes et diagrammes: leur compilation et construction. Londres: Methuen. (éditions ultérieures 1963, 1971)

Morgan, MG et M. Henrion. 1990. Uncertainty: A Guide to Gealing with Uncertainty in Quantitative Risk and Policy Analysis. Cambridge: Cambridge University Press.

Myatt, GJ 2007. Donner un sens aux données: un guide pratique pour l'analyse exploratoire des données et l'exploration de données. Hoboken, NJ: John Wiley.

Myatt, GJ et Johnson, WP 2009. Making Sense of Data II: A Practical Guide to Data Visualization, Advanced Data Mining Methods, and Applications. Hoboken, NJ: John Wiley.

Myatt, GJ et Johnson, WP 2011. Making Sense of Data III: A Practical Guide to Designing Interactive Data Visualizations. Hoboken, NJ: John Wiley.

Ottaway, B. 1973. Diagrammes de dispersion: une nouvelle approche pour l'affichage des dates de carbone 14. Archéométrie 15: 5-12.

Parzen, E. 1979a. Modélisation de données statistiques non paramétriques. Journal, American Statistical Association 74: 105-121.

Parzen, E. 1979b. Une perspective de la fonction densité-quantile sur une estimation robuste. Dans Launer, RL et GN Wilkinson (eds) Robustness in Statistics. New York: Academic Press, 237-258.

Parzen, E. 1982. Modélisation des données utilisant des fonctions quantile et densité-quantile. Dans Tiago de Oliveira, J. et Epstein, B. (eds) Some Recent Advances in Statistics. Londres: Academic Press, 23-52.

Quinn, GP et MJ Keough. 2002. Conception expérimentale et analyse de données pour les biologistes. Cambridge: Cambridge University Press.

Reimann, C., P. Filzmoser, RG Garrett et R. Dutter. 2008. Analyse des données statistiques expliquée: Statistiques environnementales appliquées avec R. Chichester: John Wiley.

Sall, J., A. Lehman, M. Stephens et L. Creighton. 2014. Statistiques de démarrage JMP: guide des statistiques et de l'analyse des données à l'aide de JMP. Cary, NC: SAS Institute.

Shera, DM 1991. Quelques utilisations des graphiques quantiles pour améliorer la présentation des données. Informatique et statistiques 23: 50-53.

Spear, ME 1952. Statistiques cartographiques. New York: McGraw-Hill.

Spear, ME 1969. Techniques pratiques de cartographie. New York: McGraw-Hill.

Tukey, JW 1970.
Analyse exploratoire des données. Edition préliminaire limitée. Volume I. Reading, MA: Addison-Wesley.

Tukey, JW 1972. Quelques affichages graphiques et semi-graphiques. Dans Bancroft, TA et Brown, SA (éd.) Statistical Papers in Honor of George W. Snedecor. Ames, IA: Iowa State University Press, 293-316. (également accessible à http://www.edwardtufte.com/tufte/tukey )

Tukey, JW 1977. Analyse exploratoire des données. Reading, MA: Addison-Wesley.

Wild, CJ et GAF Seber. 2000. Chance Encounters: A First Course in Data Analysis and Inference. New York: John Wiley.

Nick Cox
la source
J'ai d'autres informations sur les parcelles en pourcentage de boîte, les parcelles de montagne et d'autres formes hybrides, à ajouter plus tard.
Nick Cox
Appréciez vraiment cette réponse, merci Nick - dans l'attente des ajouts sur les alternatives et les hybrides. Je pense qu'il est probablement juste de dire que les "boîtes à moustaches" et les amis "forment une" famille "de visualisations de données, bien que je ne sache pas comment cette famille devrait être appelée
Silverfish
Merci! si la possession de lignes ou d'autres marqueurs indiquant la médiane et les quartiles définit une boîte, alors il y avait des parcelles de terrain bien avant que Tukey ne les ait nommées, et je suis convaincu qu'il n'a jamais prétendu le contraire. Cependant, de nombreuses histoires miniatures dans les manuels scolaires et ailleurs semblent catégoriques sur ce point; surtout, c'est juste un mème répété sans preuves comme l'histoire que les lemmings sautent des falaises comme suicide collectif. Beaucoup d'alternatives aux boîtes à moustaches ne montrent même pas de boîte dans tous les sens, donc le champ est grand ouvert pour inclure toute représentation graphique des distributions univariées.
Nick Cox