Si mon histogramme montre une courbe en forme de cloche, puis-je dire que mes données sont normalement distribuées?

11

J'ai créé un histogramme pour l'âge du répondant et j'ai réussi à obtenir une très belle courbe en forme de cloche, à partir de laquelle j'ai conclu que la distribution était normale.

J'ai ensuite exécuté le test de normalité dans SPSS, avec n = 169. La valeur de p (Sig.) Du test de Kolmogorov-Smirnov est inférieure à 0,05 et les données ont donc violé l'hypothèse de normalité.

Pourquoi le test indique-t-il que la distribution par âge n'est pas normale, mais l'histogramme a montré une courbe en forme de cloche, ce qui d'après moi est normal? Quel résultat dois-je suivre?

NoraNorad
la source
8
Pourquoi testez-vous la normalité?
Glen_b -Reinstate Monica
6
En plus de l'excellent commentaire de @ Glen_b et de la réponse tout aussi excellente d'Aksakal , notez que même pour les distributions continues, KS exige que la moyenne et le sd soient connus à l'avance , non estimés à partir des données. Cela rend essentiellement le test KS inutile. "Le test de Kolmogorov-Smirnov n'est qu'une curiosité historique. Il ne doit jamais être utilisé." (D'Agostino dans d'Agostino & Stephens, éd., 1986). Si c'est le cas, utilisez plutôt Shapiro-Wilks.
Stephan Kolassa
6
@Stephan Kolassa Bon conseil, mais vous voulez dire Shapiro-Wilk. (Les suggestions de MB Wilk et SS Wilks sont souvent confuses ou confondues; l'utilisation étrange de 's comme possessif en anglais ici peut également contribuer à la confusion, même pour beaucoup de ceux qui ont l'anglais comme première langue.)
Nick Cox
2
En relation avec le commentaire de @StephanKolassa, voir Shapiro-Wilk est-il le meilleur test de normalité? ... la réponse est que ce n'est pas nécessairement, selon l'alternative qui vous intéresse, mais c'est très souvent un bon choix.
Silverfish

Réponses:

34

Nous savons généralement qu'il est impossible pour une variable d'être distribuée exactement normalement ...

La distribution normale a des queues infiniment longues s'étendant dans les deux sens - il est peu probable que les données se trouvent loin dans ces extrêmes, mais pour une vraie distribution normale, cela doit être physiquement possible. Pour les âges, un modèle normalement distribué prédira qu'il y a une probabilité non nulle que les données se situent à 5 écarts-types au-dessus ou au-dessous de la moyenne - ce qui correspondrait à des âges physiquement impossibles, comme en dessous de 0 ou au-dessus de 150. (Mais si vous regardez une pyramide des âges , il n'est pas clair pourquoi vous vous attendez à ce que l'âge soit même approximativement normalement distribué en premier lieu.) De même, si vous disposiez de données sur les hauteurs, qui pourraient intuitivement suivre une distribution plus "normale", elles ne pourraient être véritablement normal s'il y avait un risque de hauteurs inférieures à 0 cm ou supérieures à 300 cm.

J'ai parfois vu cela suggérer que nous pouvons éviter ce problème en centrant les données pour avoir un zéro moyen. De cette façon, des «âges centrés» positifs et négatifs sont possibles. Mais bien que cela rend à la fois les valeurs négatives physiquement plausibles et interprétables (les valeurs centrées négatives correspondent aux valeurs réelles situées en dessous de la moyenne), cela ne résout pas le problème que le modèle normal produira des prédictions physiquement impossibles avec une probabilité non nulle, une fois que vous décoder «l'âge centré» modélisé en un «âge réel».

... alors pourquoi s'embêter à faire des tests? Même si elle n'est pas exacte, la normalité peut toujours être un modèle utile

La question importante n'est pas vraiment de savoir si les données sont exactement normales - nous savons a priori que cela ne peut pas être le cas, dans la plupart des situations, même sans effectuer de test d'hypothèse - mais si l' approximation est suffisamment proche de vos besoins. Voir la question : les tests de normalité sont-ils essentiellement inutiles? La distribution normale est une approximation pratique à de nombreuses fins. Il est rarement «correct» - mais il ne doit généralement pas être exactement correct pour être utile. Je m'attendrais à ce que la distribution normale soit généralement un modèle raisonnable pour la taille des personnes, mais cela nécessiterait un contexte plus inhabituel pour que la distribution normale ait un sens en tant que modèle de l'âge des personnes.

Si vous ressentez vraiment le besoin d'effectuer un test de normalité, alors Kolmogorov-Smirnov n'est probablement pas la meilleure option: comme indiqué dans les commentaires, des tests plus puissants sont disponibles. Shapiro-Wilk a un bon pouvoir contre une gamme d'alternatives possibles, et a l'avantage que vous n'avez pas besoin de connaître la vraie moyenne et la variance au préalable . Mais attention, dans de petits échantillons, des écarts potentiellement assez importants par rapport à la normalité peuvent toujours ne pas être détectés, tandis que dans de grands échantillons, même de très petits (et pour des raisons pratiques, non pertinentes) des écarts par rapport à la normalité sont susceptibles de se présenter comme "très importants" (faible p -valeur).

"En forme de cloche" n'est pas nécessairement normal

Il semble qu'on vous ait dit de considérer les données "en forme de cloche" - des données symétriques qui culminent au milieu et qui ont une probabilité plus faible dans les queues - comme "normales". Mais la distribution normale nécessite une forme spécifique à son pic et à sa queue. Il existe d'autres distributions avec une forme similaire à première vue, que vous avez peut-être également qualifiées de "en forme de cloche", mais qui ne sont pas normales. À moins d'avoir beaucoup de données, il est peu probable que vous puissiez distinguer que "cela ressemble à cette distribution standard mais pas aux autres". Et si vous avez beaucoup de données, vous constaterez probablement que cela ne ressemble pas du tout à une distribution "standard"! Mais dans ce cas, à de nombreuses fins, vous '

Galerie de distributions "en forme de cloche"

La distribution normale est la "forme de cloche" à laquelle vous êtes habitué; le Cauchy a un pic plus net et des queues "plus lourdes" (c'est-à-dire contenant plus de probabilité); la distribution t avec 5 degrés de liberté se situe quelque part entre les deux (la normale est t avec df infini et le Cauchy est t avec 1 df, donc cela a du sens); la distribution exponentielle de Laplace ou double a un pdf formé à partir de deux distributions exponentielles rééchelonnées consécutivement, résultant en un pic plus net que la distribution normale; la distribution bêtaest assez différent - il n'a pas de queues qui se dirigent vers l'infini par exemple, au lieu d'avoir des coupures nettes - mais il peut toujours avoir la forme de "bosse" au milieu. En fait, en jouant avec les paramètres, vous pouvez également obtenir une sorte de "bosse asymétrique", ou même une forme en "U" - la galerie de la page Wikipedia liée est assez instructive sur la flexibilité de cette distribution. Enfin, la distribution triangulaire est une autre distribution simple sur un support fini, souvent utilisée dans la modélisation des risques.

Il est probable qu'aucune de ces distributions ne décrit exactement vos données, et il existe de nombreuses autres distributions de formes similaires, mais je voulais aborder l'idée fausse selon laquelle "bossu au milieu et à peu près symétrique signifie normal". Puisqu'il y a des limites physiques sur les données d'âge, si vos données d'âge sont "bossues" au milieu, il est toujours possible qu'une distribution avec un support fini comme la Bêta ou même une distribution triangulaire puisse s'avérer un meilleur modèle qu'un modèle avec des queues infinies comme la normale. Notez que même si vos données étaient réellement distribuées normalement, votre histogramme a peu de chances de ressembler à la "cloche" classique à moins que la taille de votre échantillon ne soit assez grande. Même un échantillon d'une distribution comme Laplace, dont le pdf se distingue clairement de celui de la normale en raison de son point culminant,

Échantillons normaux et Laplace de différentes tailles d'échantillons

Code R

par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") 
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") 
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") 
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") 
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")

par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}

# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)
Silverfish
la source
11

L'âge ne peut pas provenir d'une distribution normale. Pensez logiquement: vous ne pouvez pas avoir d'âge négatif, mais une distribution normale permet des nombres négatifs.

Il existe de nombreuses distributions en forme de cloche. Si quelque chose ressemble à une cloche, cela ne signifie pas qu'il doit être normal.

Il n'y a aucun moyen de savoir avec certitude quoi que ce soit dans les statistiques, y compris de quelle distribution proviennent les données. La forme est un indice: la forme en cloche est un argument pour une distribution normale. De plus, la compréhension de vos données est très importante. La variable comme l'âge est souvent biaisée, ce qui exclurait la normalité. Comme mentionné, la distribution normale n'a pas de limites, mais elle est parfois utilisée pour des variables bornées. Par exemple, si l'âge moyen est de 20 ans et que l'écart-type est de 1, la probabilité d'âge <17 ou> 23 est inférieure à 0,3%. Il est donc possible que la distribution normale soit une bonne approximation .

Vous pouvez essayer d'exécuter un test statistique de normalité tel que Jarque-Bera, qui prend en compte l'asymétrie et le kurtosis de l'échantillon. Le kurtosis peut être important dans certains cas. C'est très important en finance, parce que si vous modélisez les données avec une distribution normale, mais que les données proviennent en fait d'une distribution à grande échelle, vous risquez de sous-estimer les risques et les prix des actifs.

Il serait utile que vous rapportiez des statistiques descriptives ou un histogramme de vos données d'âge et de taille, telles que la moyenne, la variance, l'asymétrie, le kurtosis.

Aksakal
la source
Merci pour votre aide, pouvez-vous me dire comment savoir que certaines données proviennent d'une distribution normale par exemple dans votre réponse déclarée que l'âge ne peut pas provenir d'une distribution normale, qu'en est-il d'autres données comme la taille. Quels sont les critères que je dois Je veux en savoir plus à ce sujet, car il semble que j'ai mal compris le concept depuis que je suis nouveau dans ce domaine. Merci encore.
NoraNorad
4
Pourtant, la distribution normale est souvent utilisée comme approximation pour des variables telles que l'âge. Et ce n'est pas vraiment un problème car vous pouvez définir age_centredas age - mean(age)et vous avez une variable avec une moyenne de 0, avec un écart-type, des valeurs positives et négatives. Je ne serais donc pas aussi strict à ce sujet.
Tim
3
Vous ne pouvez pas non plus avoir une hauteur négative pour les gens, mais ce ne serait pas un obstacle pour moi de décrire la hauteur comme normalement distribuée si c'était une bonne approximation. D'ailleurs, pourquoi utiliser une distribution avec des bornes infinies pour des mesures qui ne peuvent être que finies? Comme le dit @Tim, tout est affaire d'approximations acceptables compte tenu des données et du but.
Nick Cox
1
Je suis d'accord que la distribution normale pourrait parfois être une bonne approximation pour des données limitées, mais la question était de savoir si les données provenaient de la normale ou non.
Aksakal
L'âge des diplômés du secondaire pourrait potentiellement être normalement distribué et prendre également des valeurs négatives si la moyenne est centrée comme l'a mentionné @Tim.
ui_90jax