Représentation graphique de petits échantillons

13

J'ai un petit ensemble de données de 14 temps distincts pour terminer une tâche. Cependant, j'ai du mal à trouver un graphique approprié à utiliser pour représenter graphiquement les données. Si l'échantillon était plus grand, j'utiliserais une boîte à moustaches ou un histogramme, mais je ne sais pas s'il serait approprié de l'utiliser dans ce cas lorsque l'échantillon est si petit.

Mise à jour: les temps sont 5.2.3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2

data-visualization descriptive-statistics small-sample Eamonn
la source

4

Rien de mieux que de montrer les vraies données qui vous intéressent comme un exemple concret pour encourager les gens à publier différentes solutions. À l'avance, je suggère des points ou des stripplots et des graphiques quantiles avec une boîte superposée.

Nick Cox

16

Je pense que le principe cardinal ici est que vous pouvez et devez montrer toutes les valeurs individuelles. Même si le détail n'est manifestement pas intéressant ou utile, il n'y a aucune raison de ne pas le montrer ou d'obliger le lecteur à décoder (disons) un histogramme dans lequel les barres pourraient représenter seulement une ou deux valeurs.

Je vous propose ici un petit composite. En haut à gauche est un point ou une bande (au moins vingt autres noms ont été utilisés pour la même idée) présenté horizontalement et en haut à droite la même idée présentée verticalement. Les instances de la même valeur sont mises en correspondance par empilement.

En bas se trouve un diagramme à boîtes quantiles, au sens de Parzen, dans lequel l'échelle horizontale tacite est la probabilité cumulative (position du tracé, dans un jargon commun) et la boîte médiane et quartiles conventionnelle peut être tracée de telle sorte que (en principe) la moitié les valeurs sont à l'intérieur de la boîte, comme toujours annoncé, et la moitié des valeurs à l'extérieur. La ligne horizontale supplémentaire représente ici la moyenne. Certaines personnes ajoutent des moyens aux encadrés en tant que point supplémentaire ou symbole de marqueur; Je trouve que cela peut entrer en conflit avec l'affichage des données elles-mêmes, et je préfère une ligne supplémentaire. Si la ligne pour la médiane et la ligne pour la moyenne semblaient coïncider, vous auriez besoin de penser quoi faire. Presque toujours, la moyenne et la médiane sont sensiblement différentes.

On peut dire qu'il est standard de rendre les unités de mesure explicites sur le graphique, mais je ne vois pas ce qu'elles sont.

(J'ai délibérément poussé un point supplémentaire ici, à savoir que les graphiques peuvent être très petits mais toujours informatifs. En pratique, je ne les rendrais pas si petits.)

ÉDITER:

Références croisées ajoutées aux diagrammes de boîtes quantiles au sens large de Parzen (d'autres références dans la seconde ci-dessous; d'autres utilisations des «diagrammes de boîtes quantiles» existent)

Comment puis-je mesurer la différence entre des données non paramétriques avec plusieurs zéros?

Comment utiliser les boîtes à moustaches pour trouver le point où les valeurs sont plus susceptibles de provenir de conditions différentes?

Comment visualiser un test t indépendant à deux échantillons?

Comment puis-je savoir quelle expérience se porte mieux en utilisant le test U de Mann-Whitney?

Shera, DM 1991. Quelques utilisations des graphiques quantiles pour améliorer la présentation des données. Informatique et statistiques 23: 50-53.

Militký, J. et M. Meloun. 1993. Quelques outils graphiques pour l'analyse exploratoire univariée des données. Analytica Chimica Acta 277: 215-221.

Meloun, M. et J. Militký. 1994. Traitement de données assisté par ordinateur en chimiométrie analytique. I. Analyse exploratoire des données univariées. Chemical Papers 48: 151-157.

EDIT 2:

Le point principal de ces fils n'est pas seulement de répondre à la question immédiate, mais de toucher à des questions étroitement similaires qui pourraient intéresser les autres.

Certaines autres conceptions de graphiques dans d'autres réponses ici montrent des identificateurs, étiquetés de manière agnostique 1 ... 14 en l'absence d'autres détails. En supposant que ces identifiants et d'autres étaient utiles pour l'interprétation, une conception simple pour les montrer est un graphique à points (Cleveland). Voici deux parmi plusieurs possibilités, dans lesquelles l'ordre des identifiants est respecté littéralement (à gauche) et dans lesquelles les valeurs sont triées (à droite). Il y a beaucoup de place pour des étiquettes plus longues si nécessaire.

Un avantage de cette conception par rapport aux graphiques à barres est que l'axe de réponse ou de résultat peut commencer à une valeur non nulle si cela semble un meilleur choix.

La rotation des graphiques pour que l'axe de réponse soit vertical peut également être facilement imaginée.

Nick Cox
la source

(+1) J'ai parfois vu le tracé de points ou de bandes, en particulier s'il est orienté verticalement, avec les points "empilés" alignés au centre plutôt qu'à gauche (c'est-à-dire s'il y avait trois points empilés, alors celui du milieu serait en ligne avec le points non empilés). Cela donne une ligne de symétrie qui est esthétiquement agréable mais je ne sais pas à quel point elle est bénéfique dans la pratique. Il est peut-être plus facile de superposer une boîte. Est-ce que cela a un nom distinct, savez-vous? Et y a-t-il eu des conseils pour l'éviter / l'adopter?

Silverfish

1

En outre, y a-t-il une chance que vous puissiez donner une référence pour Parzen? J'ai toujours aimé ces intrigues, mais je n'ai jamais lu une référence appropriée pour elles.

Silverfish

@Silverfish Les variantes centrées (centrées) sont certainement populaires et souvent discutées. Les petits problèmes semblent être un désir de symétrie, comme vous le mentionnez, par rapport à un design ressemblant à un style d'histogramme, que j'ai tendance à préférer légèrement, mais c'est une question de goût et de circonstance. J'ai ajouté des références croisées et, à mon tour, j'en souhaiterais d'autres.

Nick Cox

3

@Nick Cox a déjà donné de bons exemples, deux autres options que j'utilise assez fréquemment sont le diagramme en boîte avec des points superposés ou légèrement tremblants,

Avec R Code

times<-c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
boxplot(times)
points(rep(1,length(times)),times,cex = 3, pch = 'x')

boxplot(times)
points(jitter(rep(1,length(times)),amount = 0.1),times,cex = 3, pch = 'x')

EDIT: Vous pouvez également utiliser un complot de violon si vous le souhaitez

ggplot(data.frame(times), aes(x = rep(0,length(times)), y = times)) + geom_violin() + geom_jitter()

aeongrail
la source

1

Merci beaucoup pour la réponse. J'étais réticent à l'idée d'utiliser des boîtes à moustaches dans mes analyses en raison de la taille de l'échantillon. Mais après avoir regardé différents manuels, il semble que ma taille d'échantillon soit suffisante.

Eamonn

1

Votre question m'a rappelé la technique décrite dans ce billet de blog . Il s'agit de la visualisation d'événements discrets.

L'astuce principale consiste à tracer the time before an eventx the time after an event.

Vos données visualisées [1]

C'est peut-être par hasard, mais en haut, la zone centrale ne contient aucune donnée. Il y a donc une structure visible.

Le Rcode rapide et sale .

data <- c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
x=data[1:12]
y=data[2:13]
plot(x,y, col="white", xlab="Time before an event", ylab="Time after an event"  )
for (i in 1:12) {
    text(x[i],y[i], i)
}

Harald Thomson
la source

OP a dit 14 fois. J'ai lu cela comme impliquant que ce n'était pas une série. S'il s'agit d'une série, votre idée est certainement pertinente.

Nick Cox

Vous avez probablement raison. Cependant, même si elles ne sont pas une série, le graphique se montre les dépendances entre les temps. Évidemment, les étiquettes d'axe sont alors erronées.

Harald Thomson

2

Seul l'OP peut clarifier exactement quelles sont les données, mais je ne pense pas que ce graphique l'emporte de toute façon. Si les données sont des temps distincts, le graphique n'a de sens que s'il existe un sens à l'ordre dans lequel les valeurs sont données.

Nick Cox

fyi textprend des arguments vectoriels - text(x, y, 1:12)devrait fonctionner.

MichaelChirico

1

Une autre idée, puisque vous utilisez le temps.

Un tracé de piste - un diagramme à barres avec des coordonnées polaires - donne le même effet qu'un chronomètre:

Idéalement, les étiquettes d'observation devraient être superposées aux barres ou au moins à l'autre extrémité. À l'heure actuelle, le spectateur a la pression supplémentaire de garder une trace de quelle observation est (haut / bas) lors de toute comparaison.

neerajt
la source

2

Je dois considérer cela comme une technique graphique excentrique, voire franche, tout à fait perverse. L'œil ne voit même pas la longueur de l'arc, mais une zone à décoder en tant que telle, mais le cerveau doit intervenir et souligner que seul l'angle de rotation est informatif. Il est même difficile de voir exactement quelles valeurs sont inférieures, égales ou supérieures les unes aux autres, ce qui est immédiat dans tout style de graphique acceptable.

Nick Cox

Le seul avantage que je peux voir pour cette conception, à moins que le classement ne soit pour une conception inhabituelle, est que les identificateurs # 1 à # 14 sont immédiats dans cette conception. J'ai repris ce point dans une modification de ma propre réponse.

Nick Cox

Représentation graphique de petits échantillons

Réponses: