J'ai un petit ensemble de données de 14 temps distincts pour terminer une tâche. Cependant, j'ai du mal à trouver un graphique approprié à utiliser pour représenter graphiquement les données. Si l'échantillon était plus grand, j'utiliserais une boîte à moustaches ou un histogramme, mais je ne sais pas s'il serait approprié de l'utiliser dans ce cas lorsque l'échantillon est si petit.
Mise à jour: les temps sont 5.2.3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2
Réponses:
Je pense que le principe cardinal ici est que vous pouvez et devez montrer toutes les valeurs individuelles. Même si le détail n'est manifestement pas intéressant ou utile, il n'y a aucune raison de ne pas le montrer ou d'obliger le lecteur à décoder (disons) un histogramme dans lequel les barres pourraient représenter seulement une ou deux valeurs.
Je vous propose ici un petit composite. En haut à gauche est un point ou une bande (au moins vingt autres noms ont été utilisés pour la même idée) présenté horizontalement et en haut à droite la même idée présentée verticalement. Les instances de la même valeur sont mises en correspondance par empilement.
En bas se trouve un diagramme à boîtes quantiles, au sens de Parzen, dans lequel l'échelle horizontale tacite est la probabilité cumulative (position du tracé, dans un jargon commun) et la boîte médiane et quartiles conventionnelle peut être tracée de telle sorte que (en principe) la moitié les valeurs sont à l'intérieur de la boîte, comme toujours annoncé, et la moitié des valeurs à l'extérieur. La ligne horizontale supplémentaire représente ici la moyenne. Certaines personnes ajoutent des moyens aux encadrés en tant que point supplémentaire ou symbole de marqueur; Je trouve que cela peut entrer en conflit avec l'affichage des données elles-mêmes, et je préfère une ligne supplémentaire. Si la ligne pour la médiane et la ligne pour la moyenne semblaient coïncider, vous auriez besoin de penser quoi faire. Presque toujours, la moyenne et la médiane sont sensiblement différentes.
On peut dire qu'il est standard de rendre les unités de mesure explicites sur le graphique, mais je ne vois pas ce qu'elles sont.
(J'ai délibérément poussé un point supplémentaire ici, à savoir que les graphiques peuvent être très petits mais toujours informatifs. En pratique, je ne les rendrais pas si petits.)
ÉDITER:
Références croisées ajoutées aux diagrammes de boîtes quantiles au sens large de Parzen (d'autres références dans la seconde ci-dessous; d'autres utilisations des «diagrammes de boîtes quantiles» existent)
Comment puis-je mesurer la différence entre des données non paramétriques avec plusieurs zéros?
Comment utiliser les boîtes à moustaches pour trouver le point où les valeurs sont plus susceptibles de provenir de conditions différentes?
Comment visualiser un test t indépendant à deux échantillons?
Comment puis-je savoir quelle expérience se porte mieux en utilisant le test U de Mann-Whitney?
Shera, DM 1991. Quelques utilisations des graphiques quantiles pour améliorer la présentation des données. Informatique et statistiques 23: 50-53.
Militký, J. et M. Meloun. 1993. Quelques outils graphiques pour l'analyse exploratoire univariée des données. Analytica Chimica Acta 277: 215-221.
Meloun, M. et J. Militký. 1994. Traitement de données assisté par ordinateur en chimiométrie analytique. I. Analyse exploratoire des données univariées. Chemical Papers 48: 151-157.
EDIT 2:
Le point principal de ces fils n'est pas seulement de répondre à la question immédiate, mais de toucher à des questions étroitement similaires qui pourraient intéresser les autres.
Certaines autres conceptions de graphiques dans d'autres réponses ici montrent des identificateurs, étiquetés de manière agnostique 1 ... 14 en l'absence d'autres détails. En supposant que ces identifiants et d'autres étaient utiles pour l'interprétation, une conception simple pour les montrer est un graphique à points (Cleveland). Voici deux parmi plusieurs possibilités, dans lesquelles l'ordre des identifiants est respecté littéralement (à gauche) et dans lesquelles les valeurs sont triées (à droite). Il y a beaucoup de place pour des étiquettes plus longues si nécessaire.
Un avantage de cette conception par rapport aux graphiques à barres est que l'axe de réponse ou de résultat peut commencer à une valeur non nulle si cela semble un meilleur choix.
La rotation des graphiques pour que l'axe de réponse soit vertical peut également être facilement imaginée.
la source
@Nick Cox a déjà donné de bons exemples, deux autres options que j'utilise assez fréquemment sont le diagramme en boîte avec des points superposés ou légèrement tremblants,
Avec R Code
EDIT: Vous pouvez également utiliser un complot de violon si vous le souhaitez
la source
Votre question m'a rappelé la technique décrite dans ce billet de blog . Il s'agit de la visualisation d'événements discrets.
L'astuce principale consiste à tracer
the time before an event
xthe time after an event
.C'est peut-être par hasard, mais en haut, la zone centrale ne contient aucune donnée. Il y a donc une structure visible.
Le
R
code rapide et sale .la source
text
prend des arguments vectoriels -text(x, y, 1:12)
devrait fonctionner.Une autre idée, puisque vous utilisez le temps.
Un tracé de piste - un diagramme à barres avec des coordonnées polaires - donne le même effet qu'un chronomètre:
Idéalement, les étiquettes d'observation devraient être superposées aux barres ou au moins à l'autre extrémité. À l'heure actuelle, le spectateur a la pression supplémentaire de garder une trace de quelle observation est (haut / bas) lors de toute comparaison.
la source