J'ai des maillages 3D triangulés. Les statistiques pour les zones triangulaires sont les suivantes:
- Min 0,000
- Max 2341.141
- Moyenne 56,317
- Std dev 98.720
Alors, cela signifie-t-il quelque chose de particulièrement utile à propos de l'écart-type ou suggère-t-il qu'il y a des bogues dans son calcul, lorsque les chiffres fonctionnent comme ci-dessus? Les zones sont certainement loin d'être normalement réparties.
Et comme quelqu'un l'a mentionné dans l'une de leurs réponses ci-dessous, ce qui m'a vraiment surpris, c'est que cela n'a pris qu'un écart-type de la moyenne pour que les chiffres deviennent négatifs et donc hors du domaine juridique.
Merci
distributions
mean
standard-deviation
Andy Dent
la source
la source
Réponses:
Rien n'indique que l'écart type doit être inférieur ou supérieur à la moyenne. Étant donné un ensemble de données, vous pouvez garder la moyenne la même, mais modifier l'écart type à un degré arbitraire en ajoutant / soustrayant un nombre positif de manière appropriée .
En utilisant l'exemple de jeu de données de @ whuber de son commentaire à la question: {2, 2, 2, 202}. Comme indiqué par @whuber: la moyenne est de 52 et l'écart-type est de 100.
Maintenant, perturbez chaque élément des données comme suit: {22, 22, 22, 142}. La moyenne est toujours de 52 mais l'écart-type est de 60.
la source
Bien sûr, ce sont des paramètres indépendants. Vous pouvez définir des explorations simples dans R (ou un autre outil que vous préférez).
De même, vous standardisez les données que vous regardez en soustrayant la moyenne et en divisant par l'écart-type.
Edit Et suivant l'idée de @ whuber, voici une infinité d'ensembles de données qui se rapprochent de vos quatre mesures:
la source
Je ne sais pas pourquoi @Andy est surpris de ce résultat, mais je sais qu'il n'est pas seul. Je ne suis pas non plus sûr de ce que la normalité des données a à voir avec le fait que le sd est supérieur à la moyenne. Il est assez simple de générer un ensemble de données qui est normalement distribué là où c'est le cas; en effet, la normale standard a une moyenne de 0, sd de 1. Il serait difficile d'obtenir un ensemble de données de distribution normale de toutes les valeurs positives avec sd> moyenne; en effet, cela ne devrait pas être possible (mais cela dépend de la taille de l'échantillon et du test de normalité que vous utilisez ... avec un très petit échantillon, des choses étranges se produisent)
Cependant, une fois que vous supprimez la stipulation de la normalité, comme @Andy l'a fait, il n'y a aucune raison pour que sd soit plus grand ou plus petit que la moyenne, même pour toutes les valeurs positives. Une seule valeur aberrante fera cela. par exemple
x <- runif (100, 1, 200) x <- c (x, 2000)
donne une moyenne de 113 et un sd de 198 (selon la semence, bien sûr).
Mais une question plus importante est de savoir pourquoi cela surprend les gens.
Je n'enseigne pas les statistiques, mais je me demande ce que la façon dont les statistiques sont enseignées rend cette notion commune.
la source
En ajoutant simplement un point générique qui, du point de vue du calcul, et ∫ x 2 f ( x ) d x sont liés par l'inégalité de Jensen , en supposant que les deux intégrales existent, ∫ x 2 f ( x ) d x ≥ { ∫
la source
Peut-être que l'OP est surpris que la moyenne - 1 SD soit un nombre négatif (surtout lorsque le minimum est 0).
Voici deux exemples qui peuvent clarifier.
Supposons que vous ayez une classe de 20 élèves de première année, où 18 ont 6 ans, 1 est 5 et 1 est 7. Ajoutez maintenant l'enseignant de 49 ans. L'âge moyen est de 8,0, tandis que l'écart-type est de 9,402.
Vous pensez peut-être: une fourchette d'écart type pour cette classe va de -1,402 à 17,402 ans. Vous pourriez être surpris que le SD inclut un âge négatif, ce qui semble déraisonnable.
Vous n'avez pas à vous soucier de l'âge négatif (ou des tracés 3D s'étendant moins que le minimum de 0,0). Intuitivement, vous avez toujours environ les deux tiers des données à moins de 1 SD de la moyenne. (Vous avez en fait 95% des données à moins de 2 SD de la moyenne.)
Lorsque les données prennent une distribution non normale, vous verrez des résultats surprenants comme celui-ci.
Deuxième exemple. Dans son livre, Fooled by Randomness , Nassim Taleb met en place l'expérience de pensée d'un archer aux yeux bandés tirant sur un mur de longueur inifinte. L'archer peut tirer entre +90 degrés et -90 degrés.
De temps en temps, l'archer tire la flèche parallèlement au mur, et elle ne frappera jamais. Considérez dans quelle mesure la flèche manque la cible lors de la distribution des nombres. L'écart type pour ce scénario serait inifinte.
la source
R
la source
la source
Ce que vous semblez avoir implicitement à l'esprit, c'est un intervalle de prédiction qui limiterait l'occurrence de nouvelles observations. Le hic, c'est: vous devez postuler une distribution statistique conforme au fait que vos observations (zones triangulaires) doivent rester non négatives. Normal n'aidera pas, mais log-normal pourrait être très bien. En termes pratiques, prenez le journal des zones observées, calculez la moyenne et l'écart-type, formez un intervalle de prédiction en utilisant la distribution normale, et enfin évaluez l'exponentielle pour les limites inférieure et supérieure - l'intervalle de prédiction transformé ne sera pas symétrique autour la moyenne et est garanti de ne pas descendre en dessous de zéro. C'est ce que je pense que le PO avait réellement en tête.
la source
Felipe Nievinski pointe ici un vrai problème. Cela n'a aucun sens de parler en termes de distribution normale lorsque la distribution n'est clairement pas une distribution normale. Les valeurs positives avec une moyenne et un écart-type relativement faibles ne peuvent pas avoir une distribution normale. La tâche consiste donc à déterminer quel type de distribution convient à la situation. Le message d'origine suggère qu'une distribution normale (ou quelque chose du genre) était clairement à l'esprit. Sinon, les chiffres négatifs ne se présenteraient pas. Log normal, Rayleigh, Weibull me viennent à l'esprit ... Je ne sais pas mais je me demande ce qui pourrait être le mieux dans un cas comme celui-ci?
la source