J'ai eu un débat avec mon professeur de statistique de niveau supérieur sur les "distributions normales". Je soutiens que pour vraiment obtenir une distribution normale, il faut avoir le mode moyenne = médiane =, toutes les données doivent être contenues sous la courbe en cloche et parfaitement symétriques autour de la moyenne. Par conséquent, techniquement, il n'y a pratiquement AUCUNE distribution normale dans les études réelles, et nous devrions les appeler quelque chose d'autre, peut-être "presque normal".
Elle dit que je suis trop difficile, et si le biais / kurtosis est inférieur à 1,0, c'est une distribution normale et a décollé des points à un examen. L'ensemble de données est le nombre total de chutes / an dans un échantillon aléatoire de 52 maisons de soins infirmiers qui est un échantillon aléatoire d'une population plus importante. Un aperçu?
Problème:
QUESTION: 3. Calculez les mesures d'asymétrie et de kurtosis pour ces données. Incluez un histogramme avec une courbe normale. Discutez de vos résultats. Les données sont-elles normalement distribuées?
Statistics Number of falls N Valid 52 Missing 0 Mean 11.23 Median 11.50 Mode 4a
une. Il existe plusieurs modes. La plus petite valeur est affichée
Number of falls N Valid 52 Missing 0 Skewness .114 Std. Error of Skewness .330 Kurtosis -.961 Std. Error of Kurtosis .650
Ma réponse:
Les données sont platykurtiques et ne présentent qu'une légère asymétrie positive, et ce n'est PAS une distribution normale car la moyenne et la médiane et le mode ne sont pas égaux et les données ne sont pas réparties uniformément autour de la moyenne. En réalité, pratiquement aucune donnée n'est jamais une distribution normale parfaite, bien que nous puissions discuter de «distributions approximativement normales» telles que la taille, le poids, la température ou la longueur de l'annulaire adulte dans de grands groupes de population.
Réponse du professeur:
Vous avez raison, il n'y a pas de distribution parfaitement normale. Mais nous ne recherchons pas la perfection. Nous devons examiner les données en plus de l'histogramme et les mesures de tendance centrale. Que vous disent les statistiques d'asymétrie et de kurtosis sur la distribution? Parce qu'elles sont toutes les deux entre les valeurs critiques de -1 et +1, ces données sont considérées comme étant normalement distribuées.
Réponses:
Un problème avec votre discussion avec le professeur est un problème de terminologie, il y a un malentendu qui empêche de transmettre une idée potentiellement utile. À différents endroits, vous faites tous deux des erreurs.
Donc, la première chose à aborder: il est important d'être assez clair sur ce qu'est une distribution .
Une distribution normale est un objet mathématique spécifique, que vous pourriez considérer comme un modèle pour une population infinie de valeurs. (Aucune population finie ne peut réellement avoir une distribution continue.)
En gros, ce que fait cette distribution (une fois que vous spécifiez les paramètres) est de définir (via une expression algébrique) la proportion des valeurs de population qui se situe dans un intervalle donné sur la ligne réelle. Un peu moins lâchement, il définit la probabilité qu'une seule valeur de cette population se situe dans un intervalle donné.
Un échantillon observé n'a pas vraiment de distribution normale; un échantillon pourrait (potentiellement) être tiré d'une distribution normale, s'il en existait un. Si vous regardez le cdf empirique de l'échantillon, il est discret. Si vous le rangez (comme dans un histogramme), l'échantillon a une "distribution de fréquence", mais ce ne sont pas des distributions normales. La distribution peut nous dire certaines choses (dans un sens probabiliste) sur un échantillon aléatoire de la population, et un échantillon peut également nous dire certaines choses sur la population.
Une interprétation raisonnable d'une expression comme "échantillon normalement distribué" * est "un échantillon aléatoire d'une population normalement distribuée".
* (J'essaie généralement d'éviter de le dire moi-même, pour des raisons qui, je l'espère, sont suffisamment claires ici; en général, je parviens à me limiter au deuxième type d'expression.)
Ayant défini des termes (même s'ils sont encore un peu vagues), examinons maintenant la question en détail. Je vais aborder des parties spécifiques de la question.
C'est certainement une condition de la distribution de probabilité normale, mais pas une exigence sur un échantillon tiré d'une distribution normale; les échantillons peuvent être asymétriques, la moyenne peut différer de la médiane, etc. [Nous pouvons cependant avoir une idée de la distance à laquelle nous pouvons raisonnablement nous attendre à ce qu'ils soient si l'échantillon provient vraiment d'une population normale.]
Je ne sais pas ce que "contenu sous" signifie dans ce sens.
Non; vous parlez des données ici, et un échantillon d'une population normale (certainement symétrique) ne serait pas lui-même parfaitement symétrique.
Je suis d'accord avec votre conclusion mais le raisonnement n'est pas correct; ce n'est pas une conséquence du fait que les données ne sont pas parfaitement symétriques (etc.); c'est le fait que les populations elles-mêmes ne sont pas parfaitement normales .
Si elle a dit cela de cette façon, elle a définitivement tort.
Un asymétrie d'échantillon peut être beaucoup plus proche de 0 que cela (en prenant "moins que" pour signifier en valeur absolue et non en valeur réelle), et l'échantillon de kurtosis en excès peut également être beaucoup plus proche de 0 que cela (ils pourraient même, que ce soit par hasard ou construction, potentiellement être presque exactement nul), et pourtant la distribution à partir de laquelle l'échantillon a été tiré peut facilement être nettement non normale.
Nous pouvons aller plus loin - même si nous devions savoir par magie que l' asymétrie et le kurtosis de la population étaient exactement ceux d'une normale, cela ne nous dirait toujours pas en soi que la population était normale, ni même quelque chose de proche de la normale.
La répartition de la population des dénombrements n'est jamais normale. Les dénombrements sont discrets et non négatifs, les distributions normales sont continues et sur toute la ligne réelle.
Mais nous sommes vraiment concentrés sur le mauvais problème ici. Les modèles de probabilité ne sont que cela, des modèles . Ne confondons pas nos modèles avec la réalité .
Le problème n'est pas "les données elles-mêmes sont- elles normales?" (ils ne peuvent pas l'être), ni même "la population dont les données ont été tirées est-elle normale?" (ce ne sera presque jamais le cas).
Une question plus utile à discuter est «à quel point mon inférence serait-elle affectée si je traitais la population comme normalement répartie?
Il est également beaucoup plus difficile de bien répondre à cette question et peut nécessiter beaucoup plus de travail que de jeter un coup d'œil à quelques diagnostics simples.
Les exemples de statistiques que vous avez montrés ne sont pas particulièrement incompatibles avec la normalité (vous pourriez voir des statistiques comme ça ou "pire" pas très rarement si vous aviez des échantillons aléatoires de cette taille provenant de populations normales), mais cela ne signifie pas en soi que la population réelle d'où l'échantillon a été tiré est automatiquement «assez proche» de la normale pour un usage particulier. Il serait important de considérer le but (à quelles questions vous répondez), et la robustesse des méthodes utilisées pour cela, et même alors, nous ne pouvons toujours pas être sûrs qu'il est "assez bon"; Parfois, il peut être préférable de simplement ne pas supposer ce que nous n'avons pas de bonnes raisons de supposer a priori (par exemple sur la base d'une expérience avec des ensembles de données similaires).
Les données - même les données tirées d'une population normale - n'ont jamais exactement les propriétés de la population; à partir de ces seuls chiffres, vous n'avez pas de bonnes bases pour conclure que la population n'est pas normale ici.
D'un autre côté, nous n'avons pas non plus de base raisonnablement solide pour dire qu'elle est "suffisamment proche" de la normale - nous n'avons même pas envisagé le but de supposer la normalité, nous ne savons donc pas à quelles caractéristiques de distribution elle pourrait être sensible.
Par exemple, si j'avais deux échantillons pour une mesure qui était bornée, je savais que ce ne serait pas très discret (ne prenant principalement que quelques valeurs distinctes) et raisonnablement proche de symétrique, je serais peut-être relativement heureux d'utiliser un échantillon à deux test t à une taille d'échantillon pas si petite; il est modérément robuste à des écarts légers par rapport aux hypothèses (quelque peu robuste au niveau, pas si robuste à la puissance). Mais je serais beaucoup plus prudent quant à l'hypothèse causale de normalité lors du test d'égalité de propagation, par exemple, car le meilleur test sous cette hypothèse est assez sensible à l'hypothèse.
Si c'est vraiment le critère par lequel on décide d'utiliser un modèle de distribution normal, cela vous mènera parfois à des analyses assez médiocres.
Les valeurs de ces statistiques nous donnent quelques indices sur la population à partir de laquelle l'échantillon a été tiré, mais ce n'est pas du tout la même chose que de suggérer que leurs valeurs sont en quelque sorte un `` guide sûr '' pour choisir une analyse.
Maintenant, pour aborder le problème sous-jacent avec une version encore mieux formulée d'une question telle que celle que vous aviez:
Tout le processus consistant à examiner un échantillon pour choisir un modèle est semé d'embûches - cela modifie les propriétés de tout choix d'analyse ultérieur en fonction de ce que vous avez vu! Par exemple, pour un test d'hypothèse, vos niveaux de signification, les valeurs de p et la puissance ne sont pas tous ce que vous choisiriez / calculeriez , car ces calculs reposent sur l'analyse qui n'est pas basée sur les données.
Voir, par exemple, Gelman et Loken (2014), « The Statistical Crisis in Science », American Scientist , Volume 102, Number 6, p 460 (DOI: 10.1511 / 2014.111.460) qui traite des problèmes liés à une telle analyse dépendante des données.
la source
Vous manquez le point et êtes probablement aussi «difficile», ce qui n'est pas apprécié dans l'industrie. Elle vous montre un exemple de jouet, pour vous former à l'évaluation de la normalité d'un ensemble de données, c'est-à-dire si l'ensemble de données provient d'une distribution normale . L' examen des moments de distribution est un moyen de vérifier la normalité, par exemple le test de Jarque Bera est basé sur une telle évaluation.
Oui, la distribution normale est parfaitement symétrique. Cependant, si vous tirez un échantillon d'une vraie distribution normale, cet échantillon ne sera probablement pas parfaitement symétrique. C'est le point que vous manquez complètement. Vous pouvez tester cela très facilement vous-même. Il suffit de générer un échantillon à partir de la distribution gaussienne et de vérifier son moment. Ils ne seront jamais parfaitement «normaux», malgré la vraie distribution.
Voici un exemple stupide de Python. Je génère 100 échantillons de 100 nombres aléatoires, puis j'obtiens leurs moyennes et médianes. J'imprime le premier échantillon pour montrer que la moyenne et la médiane sont différentes, puis montre l'histogramme de la différence entre la moyenne et la médiane. Vous pouvez voir que c'est plutôt étroit, mais la différence n'est fondamentalement jamais nulle. Notez que les chiffres proviennent vraiment d'une distribution normale .
code:
les sorties:
PS
Maintenant, si l'exemple de votre question doit être considéré comme normal ou non dépend du contexte. Dans le contexte de ce qui a été enseigné dans votre salle de classe, vous vous trompez, car votre professeur voulait voir si vous connaissez le test empirique qu'elle vous a donné, à savoir que l'inclinaison et l' excès de kurtosis doivent être de -1 à 1. intervalle.
Personnellement, je n'ai jamais utilisé cette règle empirique particulière (je ne peux pas appeler cela un test), et je ne savais même pas qu'elle existait. Apparemment, certaines personnes dans certains domaines l'utilisent cependant. Si vous deviez connecter vos descriptifs d'ensemble de données au test JB, cela aurait rejeté la normalité. Par conséquent, vous n'avez pas tort de suggérer que l'ensemble de données n'est pas normal, bien sûr, mais vous avez tort en ce sens que vous n'avez pas appliqué la règle qui était attendue de vous en fonction de ce qui a été enseigné en classe.
Si j'étais vous, j'approcherais poliment votre professeur et m'expliquerais, ainsi que montrer la sortie du test JB. Je reconnais que sur la base de son test, ma réponse était fausse, bien sûr. Si vous essayez de discuter avec elle de la façon dont vous discutez ici, vos chances sont très faibles de récupérer le point dans le test, car votre raisonnement est faible sur les médianes, les moyens et les échantillons, cela montre un manque de compréhension des échantillons par rapport aux populations. Si vous changez de morceau, vous aurez un étui.
la source
L'enseignant est clairement hors de son élément et ne devrait probablement pas enseigner les statistiques. Il me semble pire d'enseigner quelque chose de mal que de ne pas l'enseigner du tout.
Ces problèmes pourraient tous être résolus facilement si la distinction entre "données" et "processus qui a produit les données" était plus claire. Les données ciblent le processus qui a produit les données. La distribution normale est un modèle pour ce processus.
Cela n'a aucun sens de dire si les données sont normalement distribuées. Pour une raison, les données sont toujours discrètes. Pour une autre raison, la distribution normale décrit une infinité de quantités potentiellement observables, pas un ensemble fini de quantités observées spécifiques.
En outre, la réponse à la question "est le processus qui a produit les données un processus normalement distribué " est également toujours "non", quelles que soient les données. Deux raisons simples: (i) toutes les mesures que nous prenons sont nécessairement discrètes, étant arrondies à un certain niveau. (ii) la symétrie parfaite, comme un cercle parfait, n'existe pas dans la nature observable. Il y a toujours des imperfections.
Au mieux, la réponse à la question "qu'est-ce que ces données vous disent sur la normalité du processus de génération de données" pourrait être donnée comme suit: "ces données sont cohérentes avec ce que nous nous attendions à voir si les données provenaient vraiment d'un processus normalement distribué. " Cette réponse ne conclut pas correctement que la distribution est normale.
Ces problèmes sont très facilement compris en utilisant la simulation. Simulez simplement les données d'une distribution normale et comparez-les aux données existantes. Si les données sont des nombres (0,1,2,3, ...), alors évidemment le modèle normal est erroné car il ne produit pas de nombres comme 0,1,2,3, ...; au lieu de cela, il produit des nombres avec des décimales qui durent éternellement (ou au moins autant que l'ordinateur le permet.) Une telle simulation devrait être la première chose que vous faites lorsque vous apprenez la question de la normalité. Ensuite, vous pouvez interpréter plus correctement les graphiques et les statistiques récapitulatives.
la source
Je suis ingénieur, donc dans mon monde, le statisticien appliqué est ce que je vois le plus et j'obtiens la valeur la plus concrète. Si vous allez travailler en appliqué, alors vous devez être solidement ancré dans la pratique sur la théorie: qu'il soit élégant ou non, l'avion doit voler et ne pas s'écraser.
Quand je pense à cette question, la façon dont je l'aborde, comme beaucoup de mes parieurs techniques ici l'ont également fait, est de penser à "à quoi ressemble-t-elle dans le monde réel avec la présence de bruit".
La deuxième chose que je fais est, souvent, de faire une simulation qui me permette de mettre la main sur la question.
Voici une très brève exploration:
Il donne ceci en sortie:
Remarque: faites attention à l'axe des x, car il est à l'échelle logarithmique, pas à l'échelle uniforme.
Je sais que la moyenne et la médiane sont exactement les mêmes. Le code le dit. La réalisation empirique est très sensible à la taille de l'échantillon, et s'il n'y a pas vraiment d'échantillons infinis, alors ils ne peuvent jamais parfaitement correspondre à la théorie.
Vous pouvez vous demander si l'incertitude dans la médiane enveloppe la moyenne estimée ou vice versa. Si la meilleure estimation de la moyenne se situe dans l'IC à 95% de l'estimation de la médiane, alors les données ne peuvent pas faire la différence. Les données indiquent qu'elles sont identiques en théorie. Si vous obtenez plus de données, voyez ce que cela dit.
la source
En statistique médicale, nous ne commentons que les formes et l'apparence des distributions. Le fait qu'aucun échantillon fini discret ne puisse jamais être normal n'est pas pertinent et pédant. Je vous marquerais mal pour ça.
Si une distribution semble "principalement" normale, nous sommes à l'aise de l'appeler normale. Lorsque je décris des distributions pour un public non statistique, je suis très à l'aise d'appeler quelque chose d'approximativement normal même lorsque je sais que la distribution normale n'est pas le modèle de probabilité sous-jacent, j'ai l'impression que je serais du côté de votre professeur ici ... mais nous n'ont pas d'histogramme ni de jeu de données à vérifier.
En guise de conseil, j'examinerais de très près les inspections suivantes:
la source
Je pense que vous et votre professeur parlez dans un contexte différent. L'égalité du mode moyenne = médiane = est caractéristique de la distribution théorique et ce n'est pas la seule caractéristique. Vous ne pouvez pas dire que si pour toute distribution au-dessus de la propriété, la distribution est normale. La distribution en T est également symétrique mais ce n'est pas normal. Donc, vous parlez de propriétés théoriques de la distribution normale qui sont toujours vraies pour la distribution normale.
Votre professeur parle de la distribution des échantillons de données. Il a raison, vous n'obtiendrez jamais de données dans la vraie vie, où vous trouverez le mode moyenne = médiane =. Ceci est simplement dû à une erreur d'échantillonnage . De même, il est très peu probable que vous obteniez un coefficient d'asymétrie nul pour les données d'échantillonnage et aucun excès de kurtosis. Votre professeur vous donne simplement une règle simple pour vous faire une idée de la distribution à partir des statistiques de l'échantillon. Ce qui n'est pas vrai en général (sans obtenir plus d'informations).
la source
À des fins pratiques, les processus sous-jacents tels que celui-ci sont généralement finement approximés par une distribution normale sans que personne ne hausse un sourcil.
Cependant, si vous voulez être pédant, le processus sous-jacent dans ce cas ne peut pas être normalement distribué, car il ne peut pas produire de valeurs négatives (le nombre de chutes ne peut pas être négatif). Je ne serais pas surpris s'il s'agissait en fait au moins d'une distribution bimodale avec un deuxième pic proche de zéro.
la source