Déduire la variance du boxplot

12

Je me demandais comment déduire la variance d'une variable à l'aide d'un boxplot. Est-il au moins possible de déduire si deux variables ont la même variance en observant leur boxplot?

Donbeo
la source
1
Nous sommes récemment tombés sur cet article sur un sujet similaire. J'espère que cela vous donnera un aperçu.
Penguin_Knight

Réponses:

16

Non sans beaucoup d'hypothèses strictes, non. Si vous deviez supposer que la réponse était oui (au lieu de demander, pour laquelle je vous applaudis), je parie que je pourrais vous tromper avec cet (contre) exemple:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))

Ressemble assez similaire, non? Pourtant !σ12=1,σ22=1.96

Dans le cas où ce n'est pas clair d'après le code, la population 2est:

-3.000 -2.650 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348  2.650  3.000

Et non, vous ne pouvez pas déduire que cette population est normale simplement parce qu'elle est exactement symétrique. Voici un graphique QQ de la population 2:

Bien sûr, cela ne me semble pas normal.

Modifier - Réponse à votre commentaire:

La variance est une statistique numérique. Si les variances de deux distributions sont littéralement égales, c'est à peu près tout ce que vous avez à dire à ce sujet. Si deux distributions sont exactement normales , encore une fois, il y a une définition mathématique qui conviendra toutes les deux. Si deux distributions ne sont pas exactement normales ou égales en variance, vous ne devriez pas dire le contraire. Si vous voulez dire qu'ils sont approximativement égaux ou normaux, vous devez probablement définir «suffisamment approximatif» d'une manière adaptée à vos besoins, ce que vous n'avez pas spécifié ici. La sensibilité aux différences de distribution varie considérablement selon les analyses qui motivent généralement des questions comme la vôtre. Par exemple,til est assez robuste aux violations de ce dernier étant donné des tailles d'échantillon égales ), donc je ne recommanderais pas ce test pour comparer ma population 2à la population 1(la distribution normale).

Nick Stauner
la source
3
Bon exemple. Nick utilise R. (Jusqu'à ce que tout le monde utilise R, c'est une bonne pratique de le mentionner.)
Nick Cox
Je ne peux pas m'empêcher de penser que ce serait une bonne journée pour la science dans son ensemble :)
Nick Stauner
J'ai un long essai là-dessus, mais d'une manière ou d'une autre, cela ne rentrera pas dans l'espace disponible.
Nick Cox
Bonne réponse. Pouvez-vous écrire quelles informations nous devons rapporter afin de dire: "Ils sont normaux et l'écart est le même"
Donbeo
Édité pour répondre.
Nick Stauner
10

Cela a été bien répondu. Ces commentaires supplémentaires sont un peu trop longs (MISE À JOUR: maintenant beaucoup trop longs) pour être considérés comme des commentaires.

Strictement, tout ce que vous pouvez lire sur une boîte à moustaches sur la variabilité d'une distribution est sa plage interquartile (la longueur ou la hauteur de la boîte) et sa plage (la longueur ou la hauteur entre les extrêmes de l'affichage).

À titre d'approximation, les boîtes à moustaches qui semblent identiques sont susceptibles d'avoir des écarts très similaires, mais attention. Les parcelles avec des positions de boîte ou des queues très différentes (ou les deux) sont très peu susceptibles d'avoir des écarts similaires, mais ce n'est pas impossible. Mais même si les graphiques en boîte semblent identiques, vous n'obtenez aucune information dans un graphique en boîte simple ou vanille sur la variabilité dans la boîte ou en fait la variabilité dans les moustaches (les lignes souvent affichées entre la boîte et les points de données à moins de 1,5 IQR du quartile le plus proche) . NB il existe plusieurs variantes de boîtes à moustaches; les auteurs sont souvent pauvres à documenter les règles précises utilisées par leur logiciel.

La popularité de l'intrigue a son prix. Les boîtes à moustaches peuvent être très utiles pour montrer les caractéristiques brutes de nombreux groupes ou variables (disons 20 ou 30, parfois même plus). Comme ils sont couramment utilisés pour comparer disons 2 ou 3 groupes, ils sont à mon avis surventés, car d'autres graphiques peuvent afficher beaucoup plus de détails de manière intelligible dans le même espace. Naturellement, cela est largement, sinon universellement apprécié, et diverses améliorations de l'intrigue montrent plus de détails.

Un travail sérieux avec des écarts nécessite l'accès aux données originales.

C'est une brosse large, et plus de détails pourraient être ajoutés. Par exemple, la position de la médiane dans la case donne parfois un peu plus d'informations.

MISE À JOUR

Je suppose que beaucoup plus de gens sont intéressés par les utilisations (et les limites) des diagrammes en boîte en général que par la question spécifique de déduire la variance d'un diagramme en boîte (à laquelle la réponse courte est "Vous ne pouvez pas, sauf indirectement, approximativement, et parfois "), je vais donc ajouter d'autres commentaires sur les alternatives, comme l'a demandé @Christian Sauer.

  • Les histogrammes utilisés judicieusement sont souvent encore compétitifs. Le texte d'introduction classique moderne de Freedman, Pisani et Purves les utilise partout.

  • Les graphiques à points ou à bandes (graphiques) (et par de nombreux autres noms) sont faciles à comprendre. Des points identiques peuvent être empilés, après le regroupement si vous le souhaitez. Vous pouvez ajouter des médianes et des quartiles, ou des intervalles de moyenne et de confiance, au contenu de votre cœur.

  • Les parcelles quantiles sont, semble-t-il, un goût acquis mais à plusieurs égards les plus polyvalentes de toutes. J'inclus ici des tracés de valeurs ordonnées de probabilité cumulative (position du tracé) ainsi que des tracés de quantile qui seraient droits si les données étaient une distribution de "marque" prise en compte (normale, exponentielle, gamma, peu importe). (Remerciements à @Scortchi pour la référence au "nom de marque" utilisé par CJ Geyer.)

Mais une liste complète n'est pas possible. (J'ajouterai, par exemple, que très occasionnellement, une représentation de la tige et de la feuille est exactement correcte pour voir des détails importants dans les données, comme lorsque la préférence numérique est rampante.) Le principe clé est que les meilleurs types de diagramme de distribution permettent la perception en apparence impossible d' une structure fine dans des données qui pourraient être intéressantes ou importantes (modalité, granularité, valeurs aberrantes, etc.) ainsi que d' une structure grossière (niveau, diffusion, asymétrie, etc.).

Les boîtes à moustaches ne sont pas aussi efficaces pour montrer toutes sortes de structures. Ils ne peuvent pas l'être et n'étaient pas censés l'être. Il vaut la peine de signaler que JW Tukey dans Exploratory data analysis Reading, MA: Addison-Wesley (1977) a donné un exemple de données bimodales de Rayleigh dont un diagramme à blocs masque complètement la structure principale. En tant que grand statisticien, il savait très bien que les diagrammes en boîte n'étaient pas toujours la solution.

Une pratique bizarre, répandue dans les textes d'introduction, consiste à discuter de l'ANOVA tout en invitant les lecteurs à regarder des diagrammes en boîte, qui montrent les médianes et les quartiles, et non les moyennes et les écarts (plutôt les écarts-types). Naturellement, regarder les données est bien mieux que de ne pas regarder, mais même ainsi, une représentation graphique plus appropriée est sans doute un tracé des données brutes avec des moyennes ajustées +/- un multiple approprié de SE.

Nick Cox
la source
Nick, pourriez-vous décrire les alternatives aux boîtes à moustaches pour un petit nombre de variables?
Christian Sauer
@ChristianSauer Merci pour l'invite: veuillez consulter la mise à jour.
Nick Cox
Merci pour la très belle mise à jour. J'aime particulièrement votre dernier paragraphe, je trouve les boîtes à moustaches couplées à l'ANOVA et / ou à la régression assez déroutantes - c'est comme comparer des pommes et des oranges.
Christian Sauer
2
Les statistiques, comme à peu près n'importe quelle autre science, regorgent de terminologie, de notation et d'habitudes d'analyse bizarres copiées à partir des autres.
Nick Cox
1
Je suis totalement d'accord - dans ma thèse de maîtrise, j'ai vérifié les variables indépendantes pour leur distribution normale ... c'est la meilleure forme de statistiques sur le culte du fret :(
Christian Sauer
6

Une approche naïve:

Dans une distribution normale, les quantiles de 25% et 75% sont situés à distance du centre. Cela donne que la densité centrée à 50% couvre le double de cette distance ( ). Dans une boîte à moustaches, l'intervalle interquartile (IQR, la distance entre le bas de la boîte et le haut) couvre la quantité d'échantillon centrée à 50%.1,35 σ0.67σ1.35σ

Si vous faites l'hypothèse que votre population suit une distribution normale (ce qui est parfois une GRANDE hypothèse à faire, pas si triviale), alors l'écart-type de votre population pourrait être grossièrement estimé à partir de l'équation , qui est .σ = 0,74 I Q RIQR=1.35σσ=0.74IQR

Et à propos de la comparaison des variances par boxplot: des cases plus larges signifient des variances plus importantes, mais cela vous donne une compréhension exploratoire, et vous devez également prendre en compte les moustaches et les valeurs aberrantes. Pour confirmation, vous devez utiliser le contraste d'hypothèse.

Rufo
la source
Pour comparer la variance, nous devons encore supposer que la distribution est normale? Peut-on en déduire que la variable est normale si la case est symétrique par rapport au centre?
Donbeo
1
Je m'abonne à tout ce que dit @Nick_Stauner. Ce que j'ai exposé, c'est en supposant que vos populations sont normales, ce qui nécessite, entre autres mais pas seulement, symétrie et kurtosis = 0. Cette hypothèse est fréquemment violée.
Rufo
2
Kurtosis est défini de différentes manières. Sur une autre définition (plus simple), une normale (gaussienne) a un kurtosis 3. Vous devez vérifier quelle définition votre logiciel utilise si vous le calculez dans la pratique.
Nick Cox
1
Pour une distribution normale, ce serait un kurtosis 3, un excès de kurtosis 0 , si je ne me trompe pas. Je suis curieux de savoir si des logiciels populaires produisent par défaut un kurtosis sans excès. Cela produirait probablement beaucoup de confusion (pour ne pas nier que les gens en général sont quelque peu confus par l'omission de "l'excès" dans la pratique opposée) ...
Nick Stauner
1