Existe-t-il un «bonjour, monde» pour les graphiques statistiques?

26

En programmation informatique, il existe un premier programme classique pour apprendre / enseigner une nouvelle langue ou un nouveau système, appelé "bonjour le monde". http://en.wikipedia.org/wiki/Hello_world_program

Existe-t-il une première visualisation de données classique pour utiliser un package graphique? Si oui, c'est quoi? Et sinon, quels seraient les bons candidats?

Abraham D Flaxman
la source
3
Bienvenue sur notre site! Notre FAQ pose la question suivante: "Vous ne devez poser que des questions pratiques et fiables basées sur les problèmes réels auxquels vous êtes confronté." Pourriez-vous nous expliquer quel est votre problème réel?
whuber
3
Je voudrais identifier «l'élément de test standard» pour les graphiques statistiques, s'il en existe un, à inclure dans le matériel de formation que je développe.
Abraham D Flaxman
2
Parce que les applications graphiques varient si largement, il est difficile de concevoir un graphique standard ou universel. Il existe certaines normes pour certains types de packages graphiques, tels que les lapins et les théières historiquement célèbres pour les graphiques 3D. Pour que votre question réponde, il serait alors plus précis de savoir quel (s) package (s) votre matériel de formation sera destiné à couvrir.
whuber
1
Bon point, merci. Je vais inclure au moins quelque chose sur les graphiques statistiques en R, STATA, Python et Javascript.
Abraham D Flaxman
@AbrahamDFlaxman Je suis curieux de savoir ce "matériel de formation" et à qui et à quoi il est destiné. Pouvez-vous en dire plus?
Peter Flom - Réintègre Monica

Réponses:

9

Deux réflexions:

A. Lorsque j'essaye de comprendre l'essence de "Hello World", c'est le minimum qui doit être fait dans le langage de programmation pour générer un programme valide qui imprime une seule ligne de texte. Cela me suggère que votre "Hello World" devrait être un ensemble de données univarié, la chose la plus fondamentale que vous puissiez brancher sur un programme statistique ou graphique.

B. Je ne connais aucun graphique "Hello World". Le plus proche que je peux venir est des ensembles de données typiques qui sont inclus dans divers packages statistiques, tels que les AirPassengers de R. Dans R, une déclaration graphique Hello World serait:

plot (AirPassengers)  # Base graphics, prints line graph

ou

qplot (AirPassengers) # ggplot2, prints a bar chart

ou

xyplot (AirPassengers) # lattice, which doesn't have a generic plot

Personnellement, je pense que le graphique le plus simple est un graphique linéaire où vous avez N éléments dans Y et X vont de 1: N. Mais ce n'est pas une norme.

Wayne
la source
2
Le consensus de cette réponse et d'autres réponses est qu'il n'y a pas actuellement de "bonjour, monde" de graphiques statistiques. Je pense que votre suggestion d'un ensemble de données univarié, avec N éléments en Y et X allant de 1: N est convaincante. Par analogie avec "bonjour, monde", ce serait bien d'avoir un petit N et un Y mémorable. Que pensez-vous de N = 5 et Y = (3,1,4,1,5,9) (c.-à-d. chiffres de pi)? C'est peut-être trop mathématique.
Abraham D Flaxman
1
@AbrahamDFlaxman: Je ne pense pas que ce soit pour mathy, je pense que c'est génial. Mémorable, bref, et le graphique n'est pas seulement une ligne droite ou quoi que ce soit. Les données sont bien connues et ne sont liées à aucun programme particulier et peuvent être étendues arbitrairement par quiconque souhaite plus de points. Je vote pour ça!
Wayne
24

Je commencerais probablement par des diagrammes de dispersion et démontrerais les quatre corrélations laides .

StasK
la source
2
+1. Mais vous voudrez peut-être envisager quelque chose d'un peu plus général, comme une forme de tracé de ligne. Après tout, dès que vous pouvez dessiner un segment de ligne, vous pouvez dessiner n'importe quoi . Cela fait écho à l'idée derrière "Hello, world!": Une fois que vous pouvez obtenir une sortie lisible à partir d'un programme, vous savez que vous pouvez communiquer avec l'ordinateur et le reste n'est que des détails :-). (Les détails peuvent être difficiles . Lorsque vous apprenez à écrire du code d'assemblage pour le mainframe IBM 360, le moyen le plus simple d'obtenir la sortie était de la stocker dans la RAM et de créer une erreur à la fin de l'exécution, obligeant le système à imprimer un vidage de mémoire hexadécimal !)
whuber
Je pense que le quatuor d'Anscombe au total contient trop pour être utilisé comme le "bonjour, le monde" des graphiques statistiques, mais la figure 1 de son article pourrait être un bon candidat. Cependant, d'autres réponses ont plaidé en faveur d'un ensemble de données univarié, vers lequel je penche.
Abraham D Flaxman
7

L'histogramme d'un échantillon d'une variable aléatoire normalement distribuée.

Karsten W.
la source
J'aime la façon dont cela se présenterait, mais peut-être que les histogrammes nécessitent plus de traitement de données que les dispersions, et trouver des échantillons de la distribution normale peut être gênant.
Abraham D Flaxman
Je viens de remarquer que c'est le premier exemple de la page Web de Matplotlib: matplotlib.org
Abraham D Flaxman
5

Je pense que la réponse est non". Autrement dit, il n'y a pas de réponse généralement acceptée à votre question.

@StasK pointe vers le nuage de points.

Mais je considérerais ce qui se plotpasse dans R: Cela dépend des données!

Vous pourriez faire valoir que les statistiques univariées sont plus simples que les statistiques bivariées. Alors ... peut-être que la chose la plus fondamentale est un histogramme; ou peut-être un graphique à barres; peut-être un graphique de densité.

Si le point de "Bonjour, monde!" est de montrer que vous pouvez faire faire quelque chose à l'ordinateur, alors je dirais que n'importe quel complot ferait l'affaire.

Peter Flom - Réintégrer Monica
la source
1
L'absence d'un élément de test standard indique peut-être que vous avez raison et qu'il est plus approprié d'utiliser le tracé le plus simple du système en cours de démonstration. Cela rend cependant difficile la comparaison.
Abraham D Flaxman
5

Je ne sais pas si cela correspond exactement à un monde bonjour, mais dans R, il existe également des démos intégrées dans de nombreux packages. par exemple

library(graphics)
demo(graphics)

guidera l'utilisateur à travers quelques graphiques de base disponibles dans le package. Cliquez simplement sur chaque image avec la souris pour parcourir les illustrations graphiques de base. Avec seulement deux lignes, l'utilisateur est introduit dans certaines des capacités inspirantes des graphiques R pour les statistiques.

Le code correspondant pour générer les graphiques s'affiche dans la console R.

entrez la description de l'image ici

tapoter
la source
2

Je dirais qu'il y avait deux programmes de type "Hello World" pour la visualisation des données:

Print ("Hello World"): Quelque chose comme l'histogramme d'une variable normalement distribuée, ou peut-être un simple nuage de points X, Y.

Pour quelque chose d'un peu plus complexe, comme la section où l'on prend les principes de Hello World et commence à jouer avec les entrées utilisateur, les caractères d'échappement et autres, je dirais que ce serait jouer avec l'ensemble de données Iris.

Fomite
la source