Je travaille sur la création d'un site Web, qui affiche les données du recensement pour un utilisateur de polygones sélectionnés et souhaite afficher graphiquement la distribution des différents paramètres (un graphique par paramètre).
Les données ont généralement les propriétés suivantes:
- La taille de l'échantillon a tendance à être grande (disons environ 10 000 points de données)
- La plage de valeurs a tendance à être large (par exemple, la population minimale peut être inférieure à 100 et le maximum peut être de l'ordre de 500 000)
- q1 est généralement proche du minimum (disons 200) tandis que q2 et q3 seront à moins de 10 000
- Cela ne ressemble en rien à une distribution normale
Je ne suis pas statisticien et donc ma description n'est peut-être pas tout à fait claire.
Je voudrais montrer cette distribution sur un graphique, qui sera vu par les citoyens (le profane, si vous voulez).
J'aurais préféré utiliser un histogramme, mais ce n'est pas possible en raison de la large gamme de valeurs, à cause de laquelle la création de bacs n'est pas vraiment facile et directe.
D'après le peu que je connais sur les statistiques, un diagramme en boîte est ce qui est souvent utilisé pour montrer ce type de données, mais je pense que pour un profane, déchiffrer le diagramme en boîte n'est pas facile.
Quelles sont mes options pour afficher ces données de manière simple à comprendre?
la source
Réponses:
Un boxplot n'est pas si compliqué. Après tout, il vous suffit de calculer les trois quartiles , ainsi que le min et le max qui définissent la plage; une subtilité apparaît lorsque l'on veut dessiner les moustaches et différentes méthodes ont été proposées. Par exemple, dans une boîte à moustaches de Tukey, des valeurs en dehors de 1,5 fois l'inter-quartile du premier ou du troisième quartile seraient considérées comme des valeurs aberrantes et affichées comme de simples points. Voir aussi Méthodes de présentation des informations statistiques: le diagramme en boîte pour un bon aperçu , par Kristin Potter. Le R logiciel met en œuvre une règle légèrement différente , mais le code source est disponible si vous souhaitez étudier (voir
boxplot()
etboxplot.stats()
les fonctions). Cependant, il n'est pas très utile lorsque l'intérêt est d'identifier les valeurs aberrantes d'une distribution très asymétrique (mais voir, Un boxplot ajusté pour les distributions asymétriques , par Hubert et Vandervieren, CSDA 2008 52 (12)).En ce qui concerne la visualisation en ligne, je suggère de jeter un œil à Protovis qui est une boîte à outils js sans plugin pour les affichages Web interactifs. La page d' exemples contient des illustrations de ce qui peut être réalisé avec elle, en très peu de lignes.
la source
Vous voudrez peut-être également jeter un coup d'œil aux haricots .
[ Source ]
Implémenté dans le package R par Peter Kampstra.
la source
Je vous suggère de persévérer avec les histogrammes. Ils sont beaucoup plus largement compris que les alternatives. Utilisez une échelle logarithmique pour faire face à la large gamme de valeurs. Voici un exemple que j'ai concocté en quelques minutes dans Stata: j'avoue
que les étiquettes numériques de l'axe x n'étaient pas entièrement simples ou automatiques, mais lorsque vous créez un site Web, je suis sûr que vos compétences en programmation sont à la hauteur défi!
la source
Voici une fonction matlab pour tracer plusieurs histogrammes côte à côte en 2D comme alternative au box-plot. Voir l'image en haut. Et en voici un autre
La bande de densité est une autre alternative au box-plot. Il s'agit d'une bande monochrome ombrée dont l'obscurité en un point est proportionnelle à la densité de probabilité de la quantité en ce point. Ceci est une implémentation R de la bande de densité
la source
la source
Si vous ciblez la population en général (c'est-à-dire un public non averti en statistiques), vous devez vous concentrer sur le plaisir des yeux plutôt que sur la précision statistique.
Oubliez les boxplots, et encore moins les complots de violon (je les trouve personnellement très difficiles à lire)! Si vous demandez à l'homme de la rue ce qu'est un quantile, vous obtiendrez surtout un silence aux yeux écarquillés ...
Vous devez utiliser des graphiques à barres, des graphiques à bulles, peut-être des graphiques circulaires (brrrr). Oubliez les barres d'erreur (même si je mettrais SD dans le texte quelque part le cas échéant).
Utilisez des couleurs, des formes, des lignes épaisses, 3D. Vous devez rendre chaque graphique unique et immédiatement facile à comprendre, même sans avoir à lire toutes les légendes / axes, etc. Faites une utilisation intelligente des cartes en les colorant.
L'information est belle est une très bonne ressource pour trouver des idées. Regardez ce tableau par exemple: Caféine et calories : tout le monde peut le comprendre, et c'est agréable à l'œil.
Et, bien sûr, jetez un œil au travail d'Edward Tufte.
la source
J'aime plutôt les intrigues de violon , car cela donne une idée de la forme de la distribution. Cependant, si la grande plage de valeurs est le problème, il serait peut-être préférable de tracer le journal des données plutôt que les valeurs brutes, ce qui rendrait alors le choix des tailles de boîte pour les histogrammes, etc. Comme l'affichage est pour les profanes, ne ne mentionnez pas les journaux et marquez l'axe 10, 100, 1000, 10000, 100000, 1000000 etc.
la source