Une «distribution normale» doit-elle avoir un mode moyen = médian =?

17

J'ai eu un débat avec mon professeur de statistique de niveau supérieur sur les "distributions normales". Je soutiens que pour vraiment obtenir une distribution normale, il faut avoir le mode moyenne = médiane =, toutes les données doivent être contenues sous la courbe en cloche et parfaitement symétriques autour de la moyenne. Par conséquent, techniquement, il n'y a pratiquement AUCUNE distribution normale dans les études réelles, et nous devrions les appeler quelque chose d'autre, peut-être "presque normal".

Elle dit que je suis trop difficile, et si le biais / kurtosis est inférieur à 1,0, c'est une distribution normale et a décollé des points à un examen. L'ensemble de données est le nombre total de chutes / an dans un échantillon aléatoire de 52 maisons de soins infirmiers qui est un échantillon aléatoire d'une population plus importante. Un aperçu?

Problème:

QUESTION: 3. Calculez les mesures d'asymétrie et de kurtosis pour ces données. Incluez un histogramme avec une courbe normale. Discutez de vos résultats. Les données sont-elles normalement distribuées?

Statistics 
Number of falls  
N  Valid    52
   Missing   0
Mean        11.23
Median      11.50
Mode         4a

une. Il existe plusieurs modes. La plus petite valeur est affichée

Number of falls  
N  Valid    52
   Missing   0
Skewness      .114
Std. Error of Skewness    .330
Kurtosis  -.961
Std. Error of Kurtosis    .650

Ma réponse:

Les données sont platykurtiques et ne présentent qu'une légère asymétrie positive, et ce n'est PAS une distribution normale car la moyenne et la médiane et le mode ne sont pas égaux et les données ne sont pas réparties uniformément autour de la moyenne. En réalité, pratiquement aucune donnée n'est jamais une distribution normale parfaite, bien que nous puissions discuter de «distributions approximativement normales» telles que la taille, le poids, la température ou la longueur de l'annulaire adulte dans de grands groupes de population.

Réponse du professeur:

Vous avez raison, il n'y a pas de distribution parfaitement normale. Mais nous ne recherchons pas la perfection. Nous devons examiner les données en plus de l'histogramme et les mesures de tendance centrale. Que vous disent les statistiques d'asymétrie et de kurtosis sur la distribution? Parce qu'elles sont toutes les deux entre les valeurs critiques de -1 et +1, ces données sont considérées comme étant normalement distribuées.

Possum-Pie
la source
3
J'aimerais connaître la formulation exacte de votre professeur. En principe, une distribution normale a une moyenne, une médiane et un mode identiques (mais il en va de même pour de nombreuses autres distributions) et a une asymétrie 0 et (soi-disant excès) une kurtosis 0 (et certaines autres distributions aussi). Au mieux, une distribution avec (par exemple) une légère asymétrie ou une kurtose est approximativement normale. Notez que presque toutes les données réelles sont au mieux des approximations des distributions nommées dans la ménagerie théorique.
Nick Cox
22
Je ne suis pas d'accord avec @ user2974951 En compagnie de tout bon texte, je sais que je suis parfaitement heureux de penser que la distribution normale a une médiane et un mode. Et cela s'applique largement aux distributions continues, bien que je ne doute pas que des contre-exemples pathologiques puissent être identifiés.
Nick Cox
4
Merci pour le détail spécifique, qui montre du mérite des deux côtés, mais je ne note aucun de vous. Cependant, je suis fortement en désaccord avec le terme valeurs critiques tel qu'utilisé par votre professeur, car les limites pour l'asymétrie et le kurtosis n'ont aucune valeur autre que d'être des règles empiriques qui pourraient être utilisées. Selon ce que vous faites avec les données, une asymétrie peut aller de pair avec le fait de vouloir transformer les données et une asymétrie peut aller de pair avec le fait de laisser les données telles qu'elles sont, et de même pour le kurtosis. < 1 > 1±1<1>1
Nick Cox
6
Si nous nous laissons sérieusement embrasser l'art de la piqûre, nous devons observer qu'il n'y a pas de chutes négatives, et que les chutes sont discrètes, de sorte que la distribution de facto ne peut pas être normale. Cela rend la question nulle en premier lieu. Plus sérieusement, la question est clairement un exemple fabriqué visant à vérifier des règles empiriques spécifiques. En réalité, selon l'objectif de notre étude, il peut être raisonnable ou non de supposer une distribution normale. En vérité, nous ne le saurons jamais, car nous n'avons qu'un échantillon.
Ioannis
5
@ user2974951 Vous devriez donc envisager de supprimer votre premier commentaire, puisque vous n'êtes pas d'accord avec lui maintenant. Jusqu'à présent, il a trompé trois lecteurs en signalant qu'ils étaient d'accord avec cela!
whuber

Réponses:

25

Un problème avec votre discussion avec le professeur est un problème de terminologie, il y a un malentendu qui empêche de transmettre une idée potentiellement utile. À différents endroits, vous faites tous deux des erreurs.

Donc, la première chose à aborder: il est important d'être assez clair sur ce qu'est une distribution .

Une distribution normale est un objet mathématique spécifique, que vous pourriez considérer comme un modèle pour une population infinie de valeurs. (Aucune population finie ne peut réellement avoir une distribution continue.)

En gros, ce que fait cette distribution (une fois que vous spécifiez les paramètres) est de définir (via une expression algébrique) la proportion des valeurs de population qui se situe dans un intervalle donné sur la ligne réelle. Un peu moins lâchement, il définit la probabilité qu'une seule valeur de cette population se situe dans un intervalle donné.

Un échantillon observé n'a pas vraiment de distribution normale; un échantillon pourrait (potentiellement) être tiré d'une distribution normale, s'il en existait un. Si vous regardez le cdf empirique de l'échantillon, il est discret. Si vous le rangez (comme dans un histogramme), l'échantillon a une "distribution de fréquence", mais ce ne sont pas des distributions normales. La distribution peut nous dire certaines choses (dans un sens probabiliste) sur un échantillon aléatoire de la population, et un échantillon peut également nous dire certaines choses sur la population.

Une interprétation raisonnable d'une expression comme "échantillon normalement distribué" * est "un échantillon aléatoire d'une population normalement distribuée".

* (J'essaie généralement d'éviter de le dire moi-même, pour des raisons qui, je l'espère, sont suffisamment claires ici; en général, je parviens à me limiter au deuxième type d'expression.)

Ayant défini des termes (même s'ils sont encore un peu vagues), examinons maintenant la question en détail. Je vais aborder des parties spécifiques de la question.

la distribution normale doit avoir une moyenne = médiane = mode

C'est certainement une condition de la distribution de probabilité normale, mais pas une exigence sur un échantillon tiré d'une distribution normale; les échantillons peuvent être asymétriques, la moyenne peut différer de la médiane, etc. [Nous pouvons cependant avoir une idée de la distance à laquelle nous pouvons raisonnablement nous attendre à ce qu'ils soient si l'échantillon provient vraiment d'une population normale.]

toutes les données doivent être contenues sous la courbe en cloche

Je ne sais pas ce que "contenu sous" signifie dans ce sens.

et parfaitement symétrique autour de la moyenne.

Non; vous parlez des données ici, et un échantillon d'une population normale (certainement symétrique) ne serait pas lui-même parfaitement symétrique.

Par conséquent, techniquement, il n'y a pratiquement AUCUNE distribution normale dans les études réelles,

Je suis d'accord avec votre conclusion mais le raisonnement n'est pas correct; ce n'est pas une conséquence du fait que les données ne sont pas parfaitement symétriques (etc.); c'est le fait que les populations elles-mêmes ne sont pas parfaitement normales .

si le biais / kurtosis est inférieur à 1,0, c'est une distribution normale

Si elle a dit cela de cette façon, elle a définitivement tort.

Un asymétrie d'échantillon peut être beaucoup plus proche de 0 que cela (en prenant "moins que" pour signifier en valeur absolue et non en valeur réelle), et l'échantillon de kurtosis en excès peut également être beaucoup plus proche de 0 que cela (ils pourraient même, que ce soit par hasard ou construction, potentiellement être presque exactement nul), et pourtant la distribution à partir de laquelle l'échantillon a été tiré peut facilement être nettement non normale.

Nous pouvons aller plus loin - même si nous devions savoir par magie que l' asymétrie et le kurtosis de la population étaient exactement ceux d'une normale, cela ne nous dirait toujours pas en soi que la population était normale, ni même quelque chose de proche de la normale.

L'ensemble de données est le nombre total de chutes / an dans un échantillon aléatoire de 52 maisons de soins infirmiers qui est un échantillon aléatoire d'une population plus importante.

La répartition de la population des dénombrements n'est jamais normale. Les dénombrements sont discrets et non négatifs, les distributions normales sont continues et sur toute la ligne réelle.

Mais nous sommes vraiment concentrés sur le mauvais problème ici. Les modèles de probabilité ne sont que cela, des modèles . Ne confondons pas nos modèles avec la réalité .

Le problème n'est pas "les données elles-mêmes sont- elles normales?" (ils ne peuvent pas l'être), ni même "la population dont les données ont été tirées est-elle normale?" (ce ne sera presque jamais le cas).

Une question plus utile à discuter est «à quel point mon inférence serait-elle affectée si je traitais la population comme normalement répartie?

Il est également beaucoup plus difficile de bien répondre à cette question et peut nécessiter beaucoup plus de travail que de jeter un coup d'œil à quelques diagnostics simples.

Les exemples de statistiques que vous avez montrés ne sont pas particulièrement incompatibles avec la normalité (vous pourriez voir des statistiques comme ça ou "pire" pas très rarement si vous aviez des échantillons aléatoires de cette taille provenant de populations normales), mais cela ne signifie pas en soi que la population réelle d'où l'échantillon a été tiré est automatiquement «assez proche» de la normale pour un usage particulier. Il serait important de considérer le but (à quelles questions vous répondez), et la robustesse des méthodes utilisées pour cela, et même alors, nous ne pouvons toujours pas être sûrs qu'il est "assez bon"; Parfois, il peut être préférable de simplement ne pas supposer ce que nous n'avons pas de bonnes raisons de supposer a priori (par exemple sur la base d'une expérience avec des ensembles de données similaires).

ce n'est PAS une distribution normale

Les données - même les données tirées d'une population normale - n'ont jamais exactement les propriétés de la population; à partir de ces seuls chiffres, vous n'avez pas de bonnes bases pour conclure que la population n'est pas normale ici.

D'un autre côté, nous n'avons pas non plus de base raisonnablement solide pour dire qu'elle est "suffisamment proche" de la normale - nous n'avons même pas envisagé le but de supposer la normalité, nous ne savons donc pas à quelles caractéristiques de distribution elle pourrait être sensible.

Par exemple, si j'avais deux échantillons pour une mesure qui était bornée, je savais que ce ne serait pas très discret (ne prenant principalement que quelques valeurs distinctes) et raisonnablement proche de symétrique, je serais peut-être relativement heureux d'utiliser un échantillon à deux test t à une taille d'échantillon pas si petite; il est modérément robuste à des écarts légers par rapport aux hypothèses (quelque peu robuste au niveau, pas si robuste à la puissance). Mais je serais beaucoup plus prudent quant à l'hypothèse causale de normalité lors du test d'égalité de propagation, par exemple, car le meilleur test sous cette hypothèse est assez sensible à l'hypothèse.

Parce qu'elles sont toutes les deux comprises entre les valeurs critiques de -1 et +1, ces données sont considérées comme normalement distribuées. "

Si c'est vraiment le critère par lequel on décide d'utiliser un modèle de distribution normal, cela vous mènera parfois à des analyses assez médiocres.

Les valeurs de ces statistiques nous donnent quelques indices sur la population à partir de laquelle l'échantillon a été tiré, mais ce n'est pas du tout la même chose que de suggérer que leurs valeurs sont en quelque sorte un `` guide sûr '' pour choisir une analyse.


Maintenant, pour aborder le problème sous-jacent avec une version encore mieux formulée d'une question telle que celle que vous aviez:

Tout le processus consistant à examiner un échantillon pour choisir un modèle est semé d'embûches - cela modifie les propriétés de tout choix d'analyse ultérieur en fonction de ce que vous avez vu! Par exemple, pour un test d'hypothèse, vos niveaux de signification, les valeurs de p et la puissance ne sont pas tous ce que vous choisiriez / calculeriez , car ces calculs reposent sur l'analyse qui n'est pas basée sur les données.

Voir, par exemple, Gelman et Loken (2014), « The Statistical Crisis in Science », American Scientist , Volume 102, Number 6, p 460 (DOI: 10.1511 / 2014.111.460) qui traite des problèmes liés à une telle analyse dépendante des données.

Glen_b -Reinstate Monica
la source
Salut Peter, désolé, je n'ai même pas vu votre message là-bas.
Glen_b -Reinstate Monica
Cette conversation a été déplacée vers le chat .
Glen_b -Reinstate Monica
41

Vous manquez le point et êtes probablement aussi «difficile», ce qui n'est pas apprécié dans l'industrie. Elle vous montre un exemple de jouet, pour vous former à l'évaluation de la normalité d'un ensemble de données, c'est-à-dire si l'ensemble de données provient d'une distribution normale . L' examen des moments de distribution est un moyen de vérifier la normalité, par exemple le test de Jarque Bera est basé sur une telle évaluation.

Oui, la distribution normale est parfaitement symétrique. Cependant, si vous tirez un échantillon d'une vraie distribution normale, cet échantillon ne sera probablement pas parfaitement symétrique. C'est le point que vous manquez complètement. Vous pouvez tester cela très facilement vous-même. Il suffit de générer un échantillon à partir de la distribution gaussienne et de vérifier son moment. Ils ne seront jamais parfaitement «normaux», malgré la vraie distribution.

Voici un exemple stupide de Python. Je génère 100 échantillons de 100 nombres aléatoires, puis j'obtiens leurs moyennes et médianes. J'imprime le premier échantillon pour montrer que la moyenne et la médiane sont différentes, puis montre l'histogramme de la différence entre la moyenne et la médiane. Vous pouvez voir que c'est plutôt étroit, mais la différence n'est fondamentalement jamais nulle. Notez que les chiffres proviennent vraiment d'une distribution normale .

code:

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(1)
s = np.random.normal(0, 1, (100,100))
print('sample 0 mean:',np.mean(s[:,0]),'median:',np.median(s[:,0]))

plt.hist(np.mean(s,0)-np.median(s,0))
plt.show()
print('avg mean-median:',np.mean(np.mean(s,0)-np.median(s,0)))

les sorties: entrez la description de l'image ici

PS

Maintenant, si l'exemple de votre question doit être considéré comme normal ou non dépend du contexte. Dans le contexte de ce qui a été enseigné dans votre salle de classe, vous vous trompez, car votre professeur voulait voir si vous connaissez le test empirique qu'elle vous a donné, à savoir que l'inclinaison et l' excès de kurtosis doivent être de -1 à 1. intervalle.

Personnellement, je n'ai jamais utilisé cette règle empirique particulière (je ne peux pas appeler cela un test), et je ne savais même pas qu'elle existait. Apparemment, certaines personnes dans certains domaines l'utilisent cependant. Si vous deviez connecter vos descriptifs d'ensemble de données au test JB, cela aurait rejeté la normalité. Par conséquent, vous n'avez pas tort de suggérer que l'ensemble de données n'est pas normal, bien sûr, mais vous avez tort en ce sens que vous n'avez pas appliqué la règle qui était attendue de vous en fonction de ce qui a été enseigné en classe.

Si j'étais vous, j'approcherais poliment votre professeur et m'expliquerais, ainsi que montrer la sortie du test JB. Je reconnais que sur la base de son test, ma réponse était fausse, bien sûr. Si vous essayez de discuter avec elle de la façon dont vous discutez ici, vos chances sont très faibles de récupérer le point dans le test, car votre raisonnement est faible sur les médianes, les moyens et les échantillons, cela montre un manque de compréhension des échantillons par rapport aux populations. Si vous changez de morceau, vous aurez un étui.

Aksakal
la source
23
(+1) Exactement le point. Confondre la variable aléatoire et un échantillon de réalisations de cette variable aléatoire.
Xi'an
15
t
Serait-il juste de dire que si vos échantillons étaient parfaitement distribués normalement, c'est une preuve de chaîne que les échantillons ne sont pas aléatoires?
JimmyJames
@JimmyJames, il y a 4 ans, un article de Science affirmait qu'une conversation de 20 minutes avec un solliciteur gay pouvait changer vos sentiments envers les homosexuels. Il s'avère que les auteurs ont constitué leurs données d'enquête. Ils étaient trop paresseux et généraient parfaitement du bruit gaussien, et c'est ainsi qu'ils ont été capturés - voir Irregularities in LaCour (2014) par Broockman et al
Aksakal
@Aksakal Je ne suis pas sûr que ce soit exactement la même chose que ce que je demande. Dans ce cas, je pense que l'argument dans ce cas était que les données réelles ne sont jamais parfaitement normales. Je pars de votre affirmation "Cependant, si vous tirez un échantillon d'une vraie distribution normale, cet échantillon ne sera probablement pas parfaitement symétrique." Si j'échantillonne au hasard à partir d'une distribution normale parfaite, je ne m'attendrais pas à ce que chaque point de données successif tombe juste en place là où il doit être pour remplir une courbe normale parfaite. Cela me ressemblerait beaucoup à un processus de sélection non aléatoire.
JimmyJames
6

L'enseignant est clairement hors de son élément et ne devrait probablement pas enseigner les statistiques. Il me semble pire d'enseigner quelque chose de mal que de ne pas l'enseigner du tout.

Ces problèmes pourraient tous être résolus facilement si la distinction entre "données" et "processus qui a produit les données" était plus claire. Les données ciblent le processus qui a produit les données. La distribution normale est un modèle pour ce processus.

Cela n'a aucun sens de dire si les données sont normalement distribuées. Pour une raison, les données sont toujours discrètes. Pour une autre raison, la distribution normale décrit une infinité de quantités potentiellement observables, pas un ensemble fini de quantités observées spécifiques.

En outre, la réponse à la question "est le processus qui a produit les données un processus normalement distribué " est également toujours "non", quelles que soient les données. Deux raisons simples: (i) toutes les mesures que nous prenons sont nécessairement discrètes, étant arrondies à un certain niveau. (ii) la symétrie parfaite, comme un cercle parfait, n'existe pas dans la nature observable. Il y a toujours des imperfections.

Au mieux, la réponse à la question "qu'est-ce que ces données vous disent sur la normalité du processus de génération de données" pourrait être donnée comme suit: "ces données sont cohérentes avec ce que nous nous attendions à voir si les données provenaient vraiment d'un processus normalement distribué. " Cette réponse ne conclut pas correctement que la distribution est normale.

Ces problèmes sont très facilement compris en utilisant la simulation. Simulez simplement les données d'une distribution normale et comparez-les aux données existantes. Si les données sont des nombres (0,1,2,3, ...), alors évidemment le modèle normal est erroné car il ne produit pas de nombres comme 0,1,2,3, ...; au lieu de cela, il produit des nombres avec des décimales qui durent éternellement (ou au moins autant que l'ordinateur le permet.) Une telle simulation devrait être la première chose que vous faites lorsque vous apprenez la question de la normalité. Ensuite, vous pouvez interpréter plus correctement les graphiques et les statistiques récapitulatives.

Peter Westfall
la source
10
Je n'ai pas rétrogradé votre réponse, mais considérez que vous jugez un professeur diplômé d'après les mots d'un étudiant. Quelle est la probabilité qu'un élève ait raison et qu'un enseignant ait tort? N'est-il pas plus probable que l'élève déforme son professeur et le contexte de la conversation?
Aksakal
D'après mon expérience et les mots des élèves, je dirais qu'il est plus probable que l'enseignant se trompe. Il y a des enseignants avec peu de formation formelle qui enseignent des cours, même des cycles supérieurs, dans les universités partout. Si les agences d'accréditation ne connaissaient que la vérité!
Peter Westfall
6
@ Possum-Pie, je peux deviner ce qu'on attend de vous. C'est probablement 101-ish bien sûr dans les statistiques, donc vous devez regarder l'asymétrie et le kurtosis. S'ils ne sont pas assez proches de 0 et 3, vous dites que ce n'est pas normal. C'est tout. En fait, c'est ce que fait le test JB de manière plus formelle. Le but de l'exercice est que vous vous souveniez que le gaussien a un biais 0 et un kurtosis 3. Vous transformez cet exercice stupide mais nécessaire en une discussion philosophique.
Aksakal
2
Le commentaire de l'enseignant «Parce qu'elles sont toutes les deux entre les valeurs critiques de -1 et +1, ces données sont considérées comme normalement distribuées» montre clairement (i) un manque de compréhension ou (ii) une volonté d'enseigner ce qu'il sait avoir tort. Je ne pense pas que ce soit une discussion philosophique de remettre en question la préparation des enseignants ou les méthodes pédagogiques.
Peter Westfall
3
Le langage de «cohérence» est bon. Mais comme le note Possum-Pie, les enseignants disent aux élèves «sur la base de ce test / diagnostic, les données sont normales», ce qui est faux à plusieurs égards. Les enseignants (psych et autres) doivent (i) distinguer le processus de génération de données des données, (ii) dire aux élèves que les modèles normal et autres sont des modèles pour le processus de génération de données, (iii) leur dire que la distribution normale est toujours mal comme modèle, quels que soient les diagnostics, et (iv) leur dire que le but de l'exercice est de diagnostiquer le degré de non-normalité, de ne pas répondre oui / non. Expliquez ensuite pourquoi c'est important.
Peter Westfall
4

Je suis ingénieur, donc dans mon monde, le statisticien appliqué est ce que je vois le plus et j'obtiens la valeur la plus concrète. Si vous allez travailler en appliqué, alors vous devez être solidement ancré dans la pratique sur la théorie: qu'il soit élégant ou non, l'avion doit voler et ne pas s'écraser.

Quand je pense à cette question, la façon dont je l'aborde, comme beaucoup de mes parieurs techniques ici l'ont également fait, est de penser à "à quoi ressemble-t-elle dans le monde réel avec la présence de bruit".

La deuxième chose que je fais est, souvent, de faire une simulation qui me permette de mettre la main sur la question.

Voici une très brève exploration:

#show how the mean and the median  differ with respect to sample size

#libraries
library(reshape2)
library(ggplot2)

#sample sizes
ssizes <- 10^(seq(from=1, to=3, by=0.25))
ssizes <- round(ssizes)

#loops per sample
n_loops <- 5000

#pre-declare, prep for loop
my_store <- matrix(0, 
                   ncol = 3, 
                   nrow = n_loops*length(ssizes))

count <- 1

for(i in 1:length(ssizes)){

  #how many samples
  n_samp <- ssizes[i]

  for(j in 1:n_loops){

    #draw samples
    y <- 0
    y <- rnorm(n = n_samp,mean = 0, sd = 1)

    #compute mean, median, mode
    my_store[count,1] <- n_samp
    my_store[count,2] <- median(y)
    my_store[count,3] <- mean(y)


    #update
    count = count + 1
  }
}


#make data into ggplot friendly form
df <- data.frame(my_store)
names(df) <- c("n_samp", "median","mean")

df <- melt(df, id.vars = 1, measure.vars = c("median","mean"))


#make ggplot
ggplot(df, aes(x=as.factor(n_samp), 
               y = value, 
               fill = variable)) + geom_boxplot() + 
  labs(title = "Contrast Median and Mean estimate variation vs. Sample Size",
       x = "Number of Samples",
       y = "Estimated value")

Il donne ceci en sortie: entrez la description de l'image ici

Remarque: faites attention à l'axe des x, car il est à l'échelle logarithmique, pas à l'échelle uniforme.

Je sais que la moyenne et la médiane sont exactement les mêmes. Le code le dit. La réalisation empirique est très sensible à la taille de l'échantillon, et s'il n'y a pas vraiment d'échantillons infinis, alors ils ne peuvent jamais parfaitement correspondre à la théorie.

Vous pouvez vous demander si l'incertitude dans la médiane enveloppe la moyenne estimée ou vice versa. Si la meilleure estimation de la moyenne se situe dans l'IC à 95% de l'estimation de la médiane, alors les données ne peuvent pas faire la différence. Les données indiquent qu'elles sont identiques en théorie. Si vous obtenez plus de données, voyez ce que cela dit.

EngrStudent - Réintégrer Monica
la source
1
Graphique intéressant. J'aurais pensé que la moyenne aurait été généralement plus grande que la médiane au début, compte tenu de la moyenne des poursuites aberrantes ... en d'autres termes, les barres rouges seraient moyennes et les médianes vertes. Qu'est-ce que je rate?
Possum-Pie
1
@ Possum-Pie Rappelez-vous que les valeurs aberrantes peuvent être dans les deux sens ... la distribution normale a à la fois une queue gauche et une queue droite!
Silverfish
2
@Voilà une implémentation assez standard d'un boxplot.
Glen_b -Reinstate Monica
1
@Glen_b J'ai vu de nombreux manuels qui n'enseignent pas l'utilisation des points pour les valeurs aberrantes, donc je peux comprendre que quelqu'un n'y est pas habitué. Mais selon Hadley , les points étaient là même lorsque Tukey a présenté son "intrigue schématique" en 1970.
Silverfish
1
Oui, une version sans valeurs aberrantes (basée uniquement sur un résumé à 5 chiffres) serait essentiellement l'intrigue de Mary Spear (1952). (NB que le papier manque quelques précurseurs historiques importants de boxplot, avant 1952)
Glen_b -Reinstate Monica
4

En statistique médicale, nous ne commentons que les formes et l'apparence des distributions. Le fait qu'aucun échantillon fini discret ne puisse jamais être normal n'est pas pertinent et pédant. Je vous marquerais mal pour ça.

Si une distribution semble "principalement" normale, nous sommes à l'aise de l'appeler normale. Lorsque je décris des distributions pour un public non statistique, je suis très à l'aise d'appeler quelque chose d'approximativement normal même lorsque je sais que la distribution normale n'est pas le modèle de probabilité sous-jacent, j'ai l'impression que je serais du côté de votre professeur ici ... mais nous n'ont pas d'histogramme ni de jeu de données à vérifier.

En guise de conseil, j'examinerais de très près les inspections suivantes:

  • qui sont les valeurs aberrantes, combien et quelles sont leurs valeurs?
  • Les données sont-elles bimodales?
  • Les données semblent-elles prendre une forme asymétrique de sorte qu'une transformation (comme un journal) permettrait de mieux quantifier la «distance» entre les observations?
  • Y a-t-il une troncature ou un amoncellement apparent de sorte que les analyses ou les laboratoires ne parviennent pas à détecter de manière fiable une certaine plage de valeurs?
AdamO
la source
Il semble que dans un domaine avec tellement de mathématiques, les gens seraient plus stricts entre dire que quelque chose est "distribution normale" qui a certaines conotations très strictes, et dire que c'est "presque normal". Je ne dirais jamais que 1,932 est 2. mais je peux dire qu'il est près de 2.
Possum-Pie
1
"Hors de propos et pédant"? Sérieusement? Je suis d'accord avec Possum-Pie. Je ne dirais jamais non plus que 1.932 est le même que 2.0. Dire que les données sont «normales» confond tout, de la signification de la distribution normale en tant que modèle pour le processus qui a produit les données, au fait réel que les distributions normales ne modélisent jamais précisément nos processus. Tout le monde devrait être informé que lorsqu'il apprend la distribution normale afin de ne pas faire de déclarations stupides.
Peter Westfall
2
@PeterWestfall Je pense qu'une partie du problème ici est que "les données proviennent d'une distribution normale" n'est presque jamais littéralement vraie, et même si c'était vrai, il serait probablement impossible de le prouver de manière concluante. Donc, puisque l'expression ne serait presque jamais vraie, les gens utiliseront plutôt "les données sont normales" comme raccourci pratique pour signifier "les données semblent assez proches de la normalité à des fins pratiques" ou "la distribution normale est une bonne- assez de modèle pour notre DGP ".
Silverfish
Alors pourquoi enseigner ce qui ne va pas alors qu'il est si simple d'enseigner ce qui est bien?
Peter Westfall
3
@PeterW Le point linguistique ne concerne pas seulement l'enseignement, il concerne la manière dont l'expression est utilisée (et destinée à être interprétée) dans la vie de tous les jours: "les données sont normales" ne signifie presque jamais "je sais avec certitude que la population à partir de laquelle les données ont été échantillonnées est normale ", car cela ne pouvait presque jamais signifier cela. Ce serait plus agréable si les gens disaient "les données semblent normales" ou même "les données semblent normales " (c'est-à-dire semblent assez proches de la normale pour que nous ne nous soucions pas de leur écart par rapport à la normalité), mais en particulier dans un cadre appliqué, les gens diront souvent des choses comme ça.
Silverfish
2

Je pense que vous et votre professeur parlez dans un contexte différent. L'égalité du mode moyenne = médiane = est caractéristique de la distribution théorique et ce n'est pas la seule caractéristique. Vous ne pouvez pas dire que si pour toute distribution au-dessus de la propriété, la distribution est normale. La distribution en T est également symétrique mais ce n'est pas normal. Donc, vous parlez de propriétés théoriques de la distribution normale qui sont toujours vraies pour la distribution normale.

Votre professeur parle de la distribution des échantillons de données. Il a raison, vous n'obtiendrez jamais de données dans la vraie vie, où vous trouverez le mode moyenne = médiane =. Ceci est simplement dû à une erreur d'échantillonnage . De même, il est très peu probable que vous obteniez un coefficient d'asymétrie nul pour les données d'échantillonnage et aucun excès de kurtosis. Votre professeur vous donne simplement une règle simple pour vous faire une idée de la distribution à partir des statistiques de l'échantillon. Ce qui n'est pas vrai en général (sans obtenir plus d'informations).

Neeraj
la source
3
Le professeur serait femaie.
Nick Cox
La raison pour laquelle vous n'obtenez pas le mode mean = median = est principalement due au fait que de nombreuses distributions sont vraiment biaisées! (Strictement, le mode moyenne = médiane = est également possible avec des distributions asymétriques, malgré ce que disent de nombreux manuels.)
Nick Cox
1
Je ne suis pas d'accord que le manque d'égalité de la moyenne / médiane / mode = erreur d'échantillonnage. Supposons que vous ayez échantillonné au hasard 52 maisons de soins infirmiers pour connaître les taux de chute. Les foyers 27, 34 et 52 sont chroniquement à court de personnel et ont toujours un nombre de chutes supérieur à la moyenne. Ces maisons poussent vers la queue et ne sont pas dues à une erreur d'échantillonnage.
Possum-Pie
1
@Possum Pie Les données sont secondaires ici, mais vous donnez différents signaux à différents endroits. Ici, vous parlez de plusieurs maisons de soins infirmiers - mais dans votre question, vous dites «dans une maison de soins infirmiers». Ne pas être clair sur les détails, même accessoires, n'aide pas.
Nick Cox
@ Nick Cox Désolé, je l'ai clarifié. Nombre de chutes / an dans un échantillon de 52 maisons de soins infirmiers
Possum-Pie
1

À des fins pratiques, les processus sous-jacents tels que celui-ci sont généralement finement approximés par une distribution normale sans que personne ne hausse un sourcil.

Cependant, si vous voulez être pédant, le processus sous-jacent dans ce cas ne peut pas être normalement distribué, car il ne peut pas produire de valeurs négatives (le nombre de chutes ne peut pas être négatif). Je ne serais pas surpris s'il s'agissait en fait au moins d'une distribution bimodale avec un deuxième pic proche de zéro.

Honza Brabec
la source
Il est bimodal avec des modes à 4 chutes et 13 chutes. Aucune chute nulle n'a été signalée.
Possum-Pie