Afficher la moyenne au lieu de la médiane dans le boxplot [fermé]

15

Lorsque vous tracez un boxplot avec python matplotblib, les lignes à mi-chemin du tracé sont la médiane de la distribution.

Y a-t-il une possibilité d'avoir la ligne à la moyenne. Ou pour le tracer à côté de lui dans un style différent.

De plus, comme il est courant que la ligne soit la médiane, cela va-t-il vraiment dérouter mes lecteurs si je fais la moyenne (bien sûr, j'ajouterai une note sur la ligne médiane)?

Peter Smit
la source

Réponses:

25

Ce code fait les boîtes à moustaches puis place un cercle marquant la moyenne de chaque boîte. Vous pouvez utiliser un symbole différent en spécifiant l' argument marqueur dans l'appel à scatter.

import numpy as np
import pylab

# 3 boxes
data = [[np.random.rand(100)] for i in range(3)]
pylab.boxplot(data)

# mark the mean    
means = [np.mean(x) for x in data]
pylab.scatter([1, 2, 3], means)

texte alternatif

ars
la source
3
Voir stackoverflow.com/questions/2492947/… pour les solutions utilisant R
James
1
@James: Je n'essaie pas d'être un con et de vous distinguer, mais votre commentaire soulève une question de ma part. Pourquoi est-ce que chaque fois que quelqu'un sur ce forum demande explicitement comment faire quelque chose en utilisant un langage non-R (puisque R est de facto par défaut), quelqu'un doit toujours suggérer d'utiliser R? Je ne trouve pas beaucoup l'inverse. Les programmeurs SAS ne commentent généralement pas "Comment faire X dans R?" questions avec "Voici comment le faire en SAS ...". Je sais que les gens aiment R (et moi aussi), mais ...
Josh Hemann
20

Pour répondre à votre deuxième question: Oui, je pense qu'il sera déroutant de mettre la ligne à la moyenne au lieu de la médiane. Les règles précises contrôlant la longueur des «moustaches» (le cas échéant) et le traitement des valeurs aberrantes varient, mais tout le monde s'en tient à l'utilisation de la boîte par Tukey comme affichage de la médiane et des quartiles inférieur et supérieur. Pour les distributions fortement asymétriques, la moyenne pourrait être hors des sentiers battus, ce qui serait très étrange. L'usage courant est que la médiane va avec la plage interquartile, tandis que la moyenne va avec l'écart-type (ou l'erreur standard de la moyenne si vous êtes intéressé par l'inférence plutôt que la description des données). Si vous souhaitez afficher visuellement la moyenne, j'utiliserais un symbole différent pour l'afficher afin d'éviter toute confusion.

un arrêt
la source