Disons que je calcule des hauteurs (en cm) et que les nombres doivent être supérieurs à zéro.
Voici l'exemple de liste:
0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981
Mean: 0.41138725956196015
Std: 0.2860541519582141
Dans cet exemple, selon la distribution normale, 99,7% des valeurs doivent être comprises entre ± 3 fois l'écart-type de la moyenne. Cependant, même deux fois l'écart-type devient négatif:
-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468
Cependant, mes chiffres doivent être positifs. Ils doivent donc être supérieurs à 0. Je peux ignorer les nombres négatifs mais je doute que ce soit la bonne façon de calculer les probabilités en utilisant l'écart-type.
Quelqu'un peut-il m'aider à comprendre si j'utilise cela correctement? Ou dois-je choisir une méthode différente?
Pour être honnête, les mathématiques sont des mathématiques. Peu importe qu'il s'agisse d'une distribution normale ou non. Si cela fonctionne avec des nombres non signés, cela devrait aussi fonctionner avec des nombres positifs! Ai-je tort?
EDIT1: histogramme ajouté
Pour être plus clair, j'ai ajouté l'histogramme de mes données réelles
EDIT2: Quelques valeurs
Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05
Réponses:
Si vos nombres ne peuvent être que positifs, leur modélisation en tant que distribution normale peut ne pas être souhaitable selon votre cas d'utilisation, car la distribution normale est prise en charge sur tous les nombres réels.
Peut-être voudriez-vous modéliser la hauteur comme une distribution exponentielle, ou peut-être une distribution normale tronquée?
la source
"Quelle est la bonne façon d'appliquer 68-95-99.7 à mon cas?"
Il ne faut s'attendre à ce que cette règle empirique pour que la couverture s'applique exactement que si vous (1) regardez la population entière (infinie) ou la distribution de probabilité théorique , et (2) la distribution est exactement normale .
Si vous prenez un échantillon aléatoire de taille 20, même à partir d'une distribution véritablement normale, vous ne constaterez pas toujours que 95% des données (19 des 20 éléments) se trouvent dans 2 (ou 1,960) écarts-types de la moyenne. En fait, il n'est ni garanti que 19 des 20 éléments se situeront à l'intérieur de 1.960 écarts-types de population de la moyenne de la population, ni que 19 des 20 éléments se situent à l'intérieur de 1.960 écarts-types de l'échantillon de la moyenne de l'échantillon.
Si vous prenez un échantillon de données d'une distribution qui n'est pas distribuée normalement, alors encore une fois, on ne s'attendrait pas à ce que la règle 68-95-99.7 s'applique exactement. Mais cela peut se rapprocher raisonnablement de cela, en particulier si la taille de l'échantillon est grande (la règle empirique de la "couverture de 99,7%" peut ne pas être particulièrement significative avec un échantillon de taille inférieure à 1000) et la distribution est raisonnablement proche de la normalité. En théorie, de nombreuses données telles que la taille ou le poids ne peuvent pas provenir d'une distribution précisément normale ou cela impliquerait une probabilité faible, mais non nulle, qu'elles soient négatives. Néanmoins, pour les données avec une distribution approximativement symétrique et unimodale, où les valeurs moyennes sont plus courantes et les valeurs extrêmement élevées ou basses chutent en probabilité, le modèle d'une distribution normale peut convenir à des fins pratiques.Si mon histogramme montre une courbe en forme de cloche, puis-je dire que mes données sont normalement distribuées?
(Une chose intéressante à propos de la règle 68-95-99.7 est qu'elle s'applique à toute distribution normale, quels que soient ses paramètres de moyenne ou d'écart-type. De même, l'inégalité de Chebyshev s'applique quels que soient les paramètres, ou même la distribution, mais seulement donne des limites inférieures pour la couverture. Mais si vous appliquez, par exemple, un modèle normal tronqué ou normal asymétrique, il n'y a pas d'équivalent simple de la couverture "68-95-99.7", car cela dépendra des paramètres de la distribution. .)
la source
Oh, c'est facile. Non, vous ne l'utilisez pas correctement.
Tout d'abord, vous utilisez un ensemble de données assez petit. Essayer de démêler le comportement statistique de cet ensemble de taille est certainement possible, mais les limites de confiance sont (ahem) plutôt grandes. Pour les petits ensembles de données, les écarts par rapport aux distributions attendues sont les mêmes pour le cours, et plus l'ensemble est petit, plus le problème est important. Rappelez-vous, "La loi des moyennes permet non seulement les coïncidences les plus scandaleuses, elle les requiert."
Pire encore, l'ensemble de données que vous utilisez ne ressemble tout simplement pas à une distribution normale. Pensez-y - avec une moyenne de 0,498, vous avez deux échantillons en dessous de 0,1 et trois autres à 0,748 ou plus. Ensuite, vous avez un groupe de 3 points entre .17 et .22. En regardant cet ensemble de données particulier et en arguant qu'il doit s'agir d'une distribution normale est un assez bon cas d'argument procrustien. Est-ce que cela ressemble à une courbe en cloche pour vous? Il est parfaitement possible que la population plus large suive une distribution normale ou normale modifiée, et une taille d'échantillon plus grande résoudrait le problème, mais je ne parierais pas dessus, en particulier sans en savoir plus sur la population.
Je dis normal modifié, car comme Kevin Li l'a souligné, techniquement, une distribution normale comprend tous les nombres réels. Comme cela a également été souligné dans les commentaires de sa réponse, cela n'empêche pas d'appliquer une telle distribution sur une plage limitée et d'obtenir des résultats utiles. Comme le dit le proverbe, "Tous les modèles sont faux. Certains sont utiles."
Mais cet ensemble de données particulier ne ressemble tout simplement pas à l'inférence d'une distribution normale (même sur une plage limitée) est une très bonne idée. Si vos 10 points de données ressemblaient à .275, .325, .375, .425, .475, .525, .575, .625, .675, .725 (moyenne de 0,500), supposeriez-vous une distribution normale?
la source
Dans l'un des commentaires, vous dites que vous avez utilisé des "données aléatoires" mais vous ne dites pas de quelle distribution. Si vous parlez de hauteurs humaines, elles sont à peu près normalement réparties, mais vos données ne sont pas appropriées à distance pour les hauteurs humaines - les vôtres sont des fractions de cm!
Et vos données ne sont pas à distance normales. Je suppose que vous avez utilisé une distribution uniforme avec des bornes de 0 et 1. Et vous avez généré un très petit échantillon. Essayons avec un plus grand échantillon:
ainsi, aucune des données n'est au-delà de 2 sd de la moyenne, car cela dépasse les limites des données. Et la portion dans 1 sd sera d'environ 0,56.
la source
Souvent, lorsque vous avez une contrainte que vos échantillons doivent tous être positifs, il vaut la peine d'examiner le logarithme de vos données pour voir si votre distribution peut être approximée par une distribution lognormale.
la source
Un calcul d'écart type est relatif à la moyenne. Pouvez-vous appliquer l'écart type aux nombres qui sont toujours positifs? Absolument. Si vous deviez ajouter 1000 à chacune des valeurs de votre échantillon, vous verriez la même valeur d'écart type, mais vous vous serez donné plus de marge de manœuvre au-dessus de zéro.
Cependant, l'ajout d'une constante arbitraire à vos données est superficiel. Lorsque vous utilisez l'écart-type pour un ensemble de données si petit, vous devrez vous attendre à une sortie non raffinée. Considérez l'écart-type comme un objectif de caméra à mise au point automatique: plus vous lui donnez de temps (données), plus l'image sera claire. Si après avoir suivi 1000000 points de données, votre moyenne et votre écart-type restent les mêmes qu'avec 10, alors je peux commencer à remettre en question la validité de votre expérience.
la source
Votre histogramme montre que la distribution normale ne convient pas. Vous pouvez essayer lognormal ou autre chose asymétrique et strictement positif
la source
Le point principal est que beaucoup d'entre nous sont paresseux *, et la distribution normale est pratique pour travailler avec nous les gens paresseux. Il est facile de faire des calculs en utilisant une distribution normale et il a de belles bases mathématiques. En tant que tel, il s'agit d'un "modèle" pour travailler sur les données. Ce modèle fonctionne souvent étonnamment bien et tombe parfois à plat sur son visage.
Il est très évident que vos échantillons n'indiquent pas une distribution normale dans les données. La solution à votre dilemme est donc de choisir un «modèle» différent et de travailler avec une distribution différente. Les distributions de Weibull peuvent être orientées, il y en a d'autres.
la source
Fondamentalement, vous utilisez des données de rapport par opposition aux données d'intervalle. Les géographes passent tout le temps en revue lors du calcul du S / D pour les précipitations annuelles à un endroit spécifique (plus de 100 ans de points d'échantillonnage au disons LA Civic Center) ou les chutes de neige (plus de 100 ans d'échantillons de chutes de neige à Big Bear Lake). Nous ne pouvons avoir que des chiffres positifs, c'est comme ça.
la source
En météorologie, les distributions des vitesses du vent ressemblent beaucoup à ceci. Par définition, les vitesses du vent sont également non négatives.
Donc, dans votre cas, je regarderais certainement la distribution de Weibull .
la source
Vous commencez par "selon la distribution normale" lorsque vos données ne sont clairement pas distribuées normalement, c'est le premier problème. Vous dites: "Peu importe qu'il s'agisse d'une distribution normale ou non". Ce qui est un non-sens absolu. Vous ne pouvez pas utiliser des déclarations sur des données distribuées normales si vos données ne sont pas distribuées normalement.
Et vous avez mal interprété la déclaration. "99,7% doivent être dans les trois écarts-types". Et 99,7% de vos données étaient en effet dans les trois écarts-types. Encore mieux, il était de 100% dans les deux écarts-types. La déclaration est donc vraie .
la source