Le contexte:
Au fil du temps, j'ai acquis un ensemble d'heuristiques sur la façon de tracer efficacement l'association entre deux variables numériques. J'imagine que la plupart des gens qui travaillent avec des données auraient un ensemble de règles similaire.
Des exemples de telles règles peuvent être:
- Si l'une des variables présente une asymétrie positive, envisagez de tracer cet axe sur une échelle logarithmique.
- S'il y a beaucoup de points de données (par exemple, n> 1000), adoptez une stratégie différente telle que l'utilisation d'une certaine forme de transparence partielle ou l'échantillonnage des données;
- Si l'une des variables prend un nombre limité de catégories discrètes, envisagez d'utiliser une parcelle de gigue ou de tournesol;
- S'il y a trois variables ou plus, envisagez d'utiliser une matrice de nuage de points;
- L'ajustement d'une certaine forme de ligne de tendance est souvent utile;
- Ajustez la taille du caractère de traçage à la taille de l'échantillon (pour un n plus grand, utilisez un caractère de traçage plus petit);
- etc.
Question:
J'aimerais pouvoir renvoyer les étudiants vers une page Web ou un site qui explique ces astuces et d'autres pour tracer efficacement les associations entre deux variables numériques, peut-être avec des exemples.
- Y a-t-il des pages ou des sites sur Internet qui font un bon travail à ce sujet?
data-visualization
correlation
teaching
rule-of-thumb
scatterplot
Jeromy Anglim
la source
la source
Réponses:
Brendan O'Connor et Lukas Biewald's, Brendan O'Connor et Lukas Biewald, ne me permettent pas de penser à d'excellentes ressources en ligne . chapitre (avertissement: le lien est directement vers un PDF) de Beautiful Data . Le chapitre est particulièrement utile comme ressource pédagogique car il incorpore le code R dans le récit.
De plus, après réflexion, je pense que le classique "Some Graphic and Semigraphic Displays" de John Tukey (commodément publié sur le site Web d'Edward Tufte) est une introduction vraiment merveilleuse, quoique quelque peu idiosyncratique, à la visualisation.
Pour une raison quelconque, je pense penser aux chapitres de livres ...
la source
Références récentes:
Kelleher et Wagner 2011 «Dix lignes directrices pour une visualisation efficace des données dans les publications scientifiques» fournissent un bel ensemble de règles. Les règles, avec des références (mais pas l'article complet) sont disponibles sans abonnement, bien que les étudiants universitaires auraient probablement un accès complet.
Nations Unies 2009 «Rendre les données significatives» fournit un bon aperçu, avec des règles et des exemples, y compris une section sur les «technologies émergentes».
Des ressources plus anciennes mais pertinentes
SIGGGRAPH fournit d'excellents tutoriels, bien que manquant d'exemples, notamment:
Senay et Ignatius 1999 "Règles et principes de la visualisation des données scientifiques"
Domik 1999 "Tutoriel sur la visualisation"
Un bon résumé de Tufte peut être trouvé ici:
la source