L'écart type est-il totalement faux? Comment pouvez-vous calculer std pour les hauteurs, les nombres et etc. (nombres positifs)?

13

Disons que je calcule des hauteurs (en cm) et que les nombres doivent être supérieurs à zéro.

Voici l'exemple de liste:

0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981

Mean: 0.41138725956196015
Std: 0.2860541519582141

Dans cet exemple, selon la distribution normale, 99,7% des valeurs doivent être comprises entre ± 3 fois l'écart-type de la moyenne. Cependant, même deux fois l'écart-type devient négatif:

-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468

Cependant, mes chiffres doivent être positifs. Ils doivent donc être supérieurs à 0. Je peux ignorer les nombres négatifs mais je doute que ce soit la bonne façon de calculer les probabilités en utilisant l'écart-type.

Quelqu'un peut-il m'aider à comprendre si j'utilise cela correctement? Ou dois-je choisir une méthode différente?

Pour être honnête, les mathématiques sont des mathématiques. Peu importe qu'il s'agisse d'une distribution normale ou non. Si cela fonctionne avec des nombres non signés, cela devrait aussi fonctionner avec des nombres positifs! Ai-je tort?

EDIT1: histogramme ajouté

Pour être plus clair, j'ai ajouté l'histogramme de mes données réelles entrez la description de l'image ici

EDIT2: Quelques valeurs

Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05
Don Coder
la source
28
Je pense que le malentendu ici est qu'une distribution qui ne peut avoir que des nombres positifs n'est pas normale, donc la règle de 99,7% que vous énoncez ne s'applique pas. Deuxièmement, à partir de la formule (d'échantillon) d'écart type, vous pouvez voir qu'il n'y a aucune condition à ce que l'une des valeurs d'origine soit positive - alors pourquoi devrait-il être faux? Il se peut qu'il soit mal utilisé , mais les statistiques sont pour la plupart agnostiques et ne devraient pas être appliquées sans réfléchir.
Momo
8
La beauté de la règle 68-95-99.7, @Momo, est qu'il ne s'applique même à de nombreuses distributions décidément non normales. Dans ce cas, 50% des nombres sont à moins de 1 sd de la moyenne et 100% sont à moins de 2 sd de la moyenne. Observez que 68% correspond approximativement à 50% et 95% correspond approximativement à 100% dans les limites que nous attendrions d'un si petit ensemble de données. Ainsi, cet exemple illustre la règle générale, même si elle peut être un peu peu convaincante en raison de sa petite taille.
whuber
2
Je suis d'accord. Permettez-moi de corriger ceci pour que la règle de 99,7% que vous énoncez ne s'applique pas nécessairement . La source de la confusion semble ici appliquer ceci comme quelque chose de plus qu'une règle de base et non en termes de nuances "approximativement aux écarts que nous attendrions". Le dernier commentaire des PO ne fait que le montrer.
Momo
4
Le titre doit-il être remplacé par quelque chose comme "Comment appliquer la règle 68-95-99.7 aux données qui doivent être positives"? Je pense que cela reflète davantage l'esprit de la question. (Ce n'est pas un problème avec la façon dont l'écart-type est calculé, ce que suggère le titre, mais plutôt la façon dont il est utilisé pour trouver les probabilités.)
Silverfish
4
L'écart type n'est pas "mauvais". Ce qui est moins précis, c'est de traiter comme des choses normales qui ne le sont pas; les proportions en dehors d'un nombre donné d'écarts-types impliqués par la normalité ne seront pas toujours exactes pour d'autres distributions. Pour les distributions unimodales continues, près de 2 écarts-types, les intervalles bilatéraux sont souvent assez raisonnables, mais plus loin, les probabilités de queue peuvent avoir des erreurs relatives très élevées.
Glen_b -Reinstate Monica

Réponses:

23

Si vos nombres ne peuvent être que positifs, leur modélisation en tant que distribution normale peut ne pas être souhaitable selon votre cas d'utilisation, car la distribution normale est prise en charge sur tous les nombres réels.

Peut-être voudriez-vous modéliser la hauteur comme une distribution exponentielle, ou peut-être une distribution normale tronquée?

λ

Kevin Li
la source
10
La première phrase n'est pas correcte en général: de nombreuses quantités strictement positives peuvent souvent être approximées par une distribution normale. Si la masse de probabilité inférieure à 0 est très petite, cela n'a pas d'importance à toutes fins pratiques. Dans ce cas particulier, c'est certainement vrai.
COOLSerdash
13
-1 Cette réponse reflète une idée fausse largement répandue (et imho pernicieuse) de ce qu'est un modèle statistique et de ce que signifie réellement modéliser des données avec une distribution normale. En effet, si nous devions croire ce que dit ce post, il serait "certainement incorrect" de rapprocher une distribution binomiale avec une distribution normale - mais c'est historiquement l'utilisation originale et probablement la plus répandue de la distribution normale! (Edit: J'ai supprimé le downvote parce que vous avez modifié la revendication d'origine en une revendication beaucoup plus correcte et utile.)
whuber
4
Cela dépend de ce que vous entendez par «supérieur». Une partie du coût d'un modèle réside dans ce qu'il faut pour le mettre en œuvre. Si vous adoptez un modèle Normal tronqué, vous vous engagez probablement à effectuer de nombreux calculs numériques personnalisés au lieu de calculs analytiques rapides, faciles et peut-être magnifiquement précis. Un autre objectif d'un modèle est de fournir un aperçu : on pense, "si la nature se comporte au moins approximativement comme ces hypothèses, quelles conséquences peut-on en déduire?" Souvent, faire de telles inférences est plus facile avec une simple approximation.
whuber
2
@whuber: après "magnifiquement précis", j'ai mentalement ajouté "faux". Pardon. Bien sûr, également "mais utile" par Box.
Stephan Kolassa
2
Même si les données consistent en des valeurs non entières?
Kevin Li
19

"Quelle est la bonne façon d'appliquer 68-95-99.7 à mon cas?"

Il ne faut s'attendre à ce que cette règle empirique pour que la couverture s'applique exactement que si vous (1) regardez la population entière (infinie) ou la distribution de probabilité théorique , et (2) la distribution est exactement normale .

Si vous prenez un échantillon aléatoire de taille 20, même à partir d'une distribution véritablement normale, vous ne constaterez pas toujours que 95% des données (19 des 20 éléments) se trouvent dans 2 (ou 1,960) écarts-types de la moyenne. En fait, il n'est ni garanti que 19 des 20 éléments se situeront à l'intérieur de 1.960 écarts-types de population de la moyenne de la population, ni que 19 des 20 éléments se situent à l'intérieur de 1.960 écarts-types de l'échantillon de la moyenne de l'échantillon.

Si vous prenez un échantillon de données d'une distribution qui n'est pas distribuée normalement, alors encore une fois, on ne s'attendrait pas à ce que la règle 68-95-99.7 s'applique exactement. Mais cela peut se rapprocher raisonnablement de cela, en particulier si la taille de l'échantillon est grande (la règle empirique de la "couverture de 99,7%" peut ne pas être particulièrement significative avec un échantillon de taille inférieure à 1000) et la distribution est raisonnablement proche de la normalité. En théorie, de nombreuses données telles que la taille ou le poids ne peuvent pas provenir d'une distribution précisément normale ou cela impliquerait une probabilité faible, mais non nulle, qu'elles soient négatives. Néanmoins, pour les données avec une distribution approximativement symétrique et unimodale, où les valeurs moyennes sont plus courantes et les valeurs extrêmement élevées ou basses chutent en probabilité, le modèle d'une distribution normale peut convenir à des fins pratiques.Si mon histogramme montre une courbe en forme de cloche, puis-je dire que mes données sont normalement distribuées?

1/k2kécarts-types de la moyenne. Cela garantit qu'au moins 75% des données se situent dans deux écarts-types de la moyenne et 89% dans trois écarts-types. Mais ces chiffres ne sont que le minimum théoriquement garanti. Pour de nombreuses distributions à peu près en forme de cloche, vous constaterez que le chiffre de couverture de l'écart-type à deux se rapproche beaucoup plus de 95% que de 75%, et donc la «règle générale» de la distribution normale est toujours utile. D'un autre côté, si vos données proviennent d'une distribution qui n'est pas du tout en forme de cloche, vous pourrez peut-être trouver un modèle alternatif qui décrit mieux les données et a une règle de couverture différente.

(Une chose intéressante à propos de la règle 68-95-99.7 est qu'elle s'applique à toute distribution normale, quels que soient ses paramètres de moyenne ou d'écart-type. De même, l'inégalité de Chebyshev s'applique quels que soient les paramètres, ou même la distribution, mais seulement donne des limites inférieures pour la couverture. Mais si vous appliquez, par exemple, un modèle normal tronqué ou normal asymétrique, il n'y a pas d'équivalent simple de la couverture "68-95-99.7", car cela dépendra des paramètres de la distribution. .)

Silverfish
la source
7

Quelqu'un peut-il m'aider à comprendre si j'utilise cela correctement?

Oh, c'est facile. Non, vous ne l'utilisez pas correctement.

Tout d'abord, vous utilisez un ensemble de données assez petit. Essayer de démêler le comportement statistique de cet ensemble de taille est certainement possible, mais les limites de confiance sont (ahem) plutôt grandes. Pour les petits ensembles de données, les écarts par rapport aux distributions attendues sont les mêmes pour le cours, et plus l'ensemble est petit, plus le problème est important. Rappelez-vous, "La loi des moyennes permet non seulement les coïncidences les plus scandaleuses, elle les requiert."

Pire encore, l'ensemble de données que vous utilisez ne ressemble tout simplement pas à une distribution normale. Pensez-y - avec une moyenne de 0,498, vous avez deux échantillons en dessous de 0,1 et trois autres à 0,748 ou plus. Ensuite, vous avez un groupe de 3 points entre .17 et .22. En regardant cet ensemble de données particulier et en arguant qu'il doit s'agir d'une distribution normale est un assez bon cas d'argument procrustien. Est-ce que cela ressemble à une courbe en cloche pour vous? Il est parfaitement possible que la population plus large suive une distribution normale ou normale modifiée, et une taille d'échantillon plus grande résoudrait le problème, mais je ne parierais pas dessus, en particulier sans en savoir plus sur la population.

Je dis normal modifié, car comme Kevin Li l'a souligné, techniquement, une distribution normale comprend tous les nombres réels. Comme cela a également été souligné dans les commentaires de sa réponse, cela n'empêche pas d'appliquer une telle distribution sur une plage limitée et d'obtenir des résultats utiles. Comme le dit le proverbe, "Tous les modèles sont faux. Certains sont utiles."

Mais cet ensemble de données particulier ne ressemble tout simplement pas à l'inférence d'une distribution normale (même sur une plage limitée) est une très bonne idée. Si vos 10 points de données ressemblaient à .275, .325, .375, .425, .475, .525, .575, .625, .675, .725 (moyenne de 0,500), supposeriez-vous une distribution normale?

James Martin
la source
J'ai utilisé des données aléatoires pour pouvoir expliquer mes besoins et mon problème
Don Coder
1
@DonCoder Les données aléatoires (sauf si vous les avez modifiées d'une manière ou d'une autre) suivraient la distribution uniforme, pas la distribution normale.
barrycarter
5
Des données aléatoires doivent être générées à partir d'une certaine distribution. Lequel avez-vous choisi?
Peter Flom - Réintègre Monica
J'ai ajouté l'histogramme de mes données réelles
Don Coder
2

Dans l'un des commentaires, vous dites que vous avez utilisé des "données aléatoires" mais vous ne dites pas de quelle distribution. Si vous parlez de hauteurs humaines, elles sont à peu près normalement réparties, mais vos données ne sont pas appropriées à distance pour les hauteurs humaines - les vôtres sont des fractions de cm!

Et vos données ne sont pas à distance normales. Je suppose que vous avez utilisé une distribution uniforme avec des bornes de 0 et 1. Et vous avez généré un très petit échantillon. Essayons avec un plus grand échantillon:

set.seed(1234)  #Sets a seed
x <- runif(10000, 0 , 1)
sd(x)  #0.28

ainsi, aucune des données n'est au-delà de 2 sd de la moyenne, car cela dépasse les limites des données. Et la portion dans 1 sd sera d'environ 0,56.

Peter Flom - Réintégrer Monica
la source
1

Souvent, lorsque vous avez une contrainte que vos échantillons doivent tous être positifs, il vaut la peine d'examiner le logarithme de vos données pour voir si votre distribution peut être approximée par une distribution lognormale.

rincer
la source
1

Un calcul d'écart type est relatif à la moyenne. Pouvez-vous appliquer l'écart type aux nombres qui sont toujours positifs? Absolument. Si vous deviez ajouter 1000 à chacune des valeurs de votre échantillon, vous verriez la même valeur d'écart type, mais vous vous serez donné plus de marge de manœuvre au-dessus de zéro.

s=i=1N(xix¯)2N1=i=1N((xi+k)(x¯+k))2N1

Cependant, l'ajout d'une constante arbitraire à vos données est superficiel. Lorsque vous utilisez l'écart-type pour un ensemble de données si petit, vous devrez vous attendre à une sortie non raffinée. Considérez l'écart-type comme un objectif de caméra à mise au point automatique: plus vous lui donnez de temps (données), plus l'image sera claire. Si après avoir suivi 1000000 points de données, votre moyenne et votre écart-type restent les mêmes qu'avec 10, alors je peux commencer à remettre en question la validité de votre expérience.

Ian MacDonald
la source
1

Votre histogramme montre que la distribution normale ne convient pas. Vous pouvez essayer lognormal ou autre chose asymétrique et strictement positif

Aksakal
la source
1

Le point principal est que beaucoup d'entre nous sont paresseux *, et la distribution normale est pratique pour travailler avec nous les gens paresseux. Il est facile de faire des calculs en utilisant une distribution normale et il a de belles bases mathématiques. En tant que tel, il s'agit d'un "modèle" pour travailler sur les données. Ce modèle fonctionne souvent étonnamment bien et tombe parfois à plat sur son visage.

Il est très évident que vos échantillons n'indiquent pas une distribution normale dans les données. La solution à votre dilemme est donc de choisir un «modèle» différent et de travailler avec une distribution différente. Les distributions de Weibull peuvent être orientées, il y en a d'autres.

  • paresseux de ne pas vraiment connaître les données et de sélectionner de meilleurs modèles si nécessaire.
ghellquist
la source
0

Fondamentalement, vous utilisez des données de rapport par opposition aux données d'intervalle. Les géographes passent tout le temps en revue lors du calcul du S / D pour les précipitations annuelles à un endroit spécifique (plus de 100 ans de points d'échantillonnage au disons LA Civic Center) ou les chutes de neige (plus de 100 ans d'échantillons de chutes de neige à Big Bear Lake). Nous ne pouvons avoir que des chiffres positifs, c'est comme ça.

Jim Woods
la source
0

En météorologie, les distributions des vitesses du vent ressemblent beaucoup à ceci. Par définition, les vitesses du vent sont également non négatives.

Donc, dans votre cas, je regarderais certainement la distribution de Weibull .

boseki
la source
0

Vous commencez par "selon la distribution normale" lorsque vos données ne sont clairement pas distribuées normalement, c'est le premier problème. Vous dites: "Peu importe qu'il s'agisse d'une distribution normale ou non". Ce qui est un non-sens absolu. Vous ne pouvez pas utiliser des déclarations sur des données distribuées normales si vos données ne sont pas distribuées normalement.

Et vous avez mal interprété la déclaration. "99,7% doivent être dans les trois écarts-types". Et 99,7% de vos données étaient en effet dans les trois écarts-types. Encore mieux, il était de 100% dans les deux écarts-types. La déclaration est donc vraie .

gnasher729
la source