J'essaie d'acquérir une meilleure compréhension intuitive de l'écart-type.
D'après ce que je comprends, il est représentatif de la moyenne des différences d'un ensemble d'observations dans un ensemble de données par rapport à la moyenne de cet ensemble de données. Cependant, il n'est PAS réellement égal aux moyennes des différences car il donne plus de poids aux observations plus éloignées de la moyenne.
Disons que j'ai la population de valeurs suivante -
La moyenne est de .
Si je prends une mesure de l'écart basé sur la valeur absolue, je reçois
Si je prends une mesure de l'écart en utilisant l'écart-type, je reçois
Le résultat utilisant l'écart-type est plus grand, comme prévu, en raison du poids supplémentaire qu'il donne à des valeurs plus éloignées de la moyenne.
Mais si on venait de me dire que j'avais affaire à une population avec une moyenne de et un écart type de comment pourrais-je en déduire que la population était composée de valeurs quelque chose comme ? Il semble juste que le chiffre de soit très arbitraire ... Je ne vois pas comment vous êtes censé l'interpréter. Est-ce que signifie que les valeurs sont très répandues ou sont-elles toutes étroitement regroupées autour de la moyenne ...2,83 { 1 , 3 , 5 , 7 , 9 } 2,83 2,83
Quand on vous présente une déclaration selon laquelle vous avez affaire à une population avec une moyenne de et un écart-type de qu'est-ce que cela vous dit sur la population?2,83
la source
Réponses:
Mon intuition est que l'écart-type est: une mesure de la diffusion des données.
Vous avez raison de dire que si elle est large ou serrée, cela dépend de notre hypothèse sous-jacente pour la distribution des données.
Mise en garde: Une mesure de l'écart est plus utile lorsque la distribution de vos données est symétrique autour de la moyenne et a une variance relativement proche de celle de la distribution normale. (Cela signifie qu'il est approximativement normal.)
Dans le cas où les données sont approximativement normales, l'écart type a une interprétation canonique:
(voir le premier graphique du Wiki )
Cela signifie que si nous savons que la moyenne de la population est de 5 et que l'écart-type est de 2,83 et que nous supposons que la distribution est approximativement normale, je vous dirais que je suis raisonnablement certain que si nous faisons (un grand) nombre d'observations, seulement 5% être inférieur à 0,4 = 5 - 2 * 2,3 ou supérieur à 9,6 = 5 + 2 * 2,3.
Remarquez quel est l'impact de l'écart-type sur notre intervalle de confiance? (plus il y a de dispersion, plus il y a d'incertitude)
De plus, dans le cas général où les données ne sont même pas approximativement normales, mais toujours symétriques, vous savez qu'il existe des pour lesquels:α
Vous pouvez soit apprendre l' partir d'un sous-échantillon, soit supposer α = 2 et cela vous donne souvent une bonne règle de base pour calculer dans votre tête quelles observations futures attendre, ou lesquelles des nouvelles observations peuvent être considérées comme des valeurs aberrantes. (gardez à l'esprit la mise en garde!)α α=2
Je suppose que chaque question demandant "large ou serré", devrait également contenir: "par rapport à quoi?". Une suggestion pourrait être d'utiliser une distribution bien connue comme référence. Selon le contexte, il pourrait être utile de penser: "Est-il beaucoup plus large ou plus serré qu'un Normal / Poisson?".
EDIT: Sur la base d'un indice utile dans les commentaires, un aspect de plus sur l'écart-type en tant que mesure de distance.
Une autre intuition encore de l'utilité de l'écart type est qu'il s'agit d'une mesure de distance entre les données d'échantillon x 1 , … , x N et sa moyenne ˉ x :sN x1,…,xN x¯
À titre de comparaison, l'erreur quadratique moyenne (ESM), l'une des mesures d'erreur les plus courantes en statistique, est définie comme suit:
Les questions peuvent être posées pourquoi la fonction de distance ci-dessus? Pourquoi des distances au carré, et non des distances absolues par exemple? Et pourquoi prenons-nous la racine carrée?
Le fait d'avoir des fonctions de distance quadratique, ou d'erreur, a l'avantage de pouvoir à la fois les différencier et les minimiser facilement. En ce qui concerne la racine carrée, elle ajoute à l'interprétabilité car elle convertit l'erreur à l'échelle de nos données observées.
la source
Il peut être utile de réaliser que la moyenne est analogue au centre de masse . La variance est le moment d'inertie . L'écart type est le rayon de giration .
Pour une perspective historique, jetez un œil à:
George Airy (1875) Sur la théorie algébrique et numérique des erreurs d'observation et la combinaison des observations
Karl Pearson (1894) Contributions à la théorie mathématique de l'évolution.
Ce graphique d'Airy 1875 montre les différentes mesures de déviation qui sont facilement interconverties (page 17). L'écart type est appelé "erreur du carré moyen". Il est également discuté pages 20-21 et il justifie son utilisation à la page 48, montrant qu'il est plus facile de calculer à la main car il n'est pas nécessaire de calculer séparément les erreurs négatives et positives. Le terme écart-type a été introduit par Pearson dans le document cité ci-dessus à la page 75.
Soit dit en passant: notez que l'utilité de l'écart-type dépend de l'applicabilité de la "loi des erreurs", également connue sous le nom de "courbe normale", qui découle "d'un grand nombre de causes d'erreur indépendantes" (Airy 1875 p. 7). Il n'y a aucune raison de s'attendre à ce que les écarts par rapport à la moyenne d'un groupe de chaque individu suivent cette loi. Dans de nombreux cas, pour les systèmes biologiques, une distribution log-normale est une meilleure hypothèse que la normale. Voir:
Limpert et al (2001) Distributions log-normales dans les sciences: clés et indices
Il est en outre douteux qu'il soit approprié de traiter la variation individuelle comme du bruit, car le processus de génération de données agit au niveau de l'individu et non du groupe.
la source
L'écart type donne en effet plus de poids à ceux qui sont plus éloignés de la moyenne, car il s'agit de la racine carrée de la moyenne des distances au carré. Les raisons de l'utiliser (plutôt que l'écart absolu moyen que vous proposez, ou l'écart absolu médian, qui est utilisé dans les statistiques robustes) sont en partie dues au fait que le calcul a plus de facilité avec les polynômes qu'avec les valeurs absolues. Cependant, nous voulons souvent souligner les valeurs extrêmes.
Quant à votre question sur la signification intuitive - elle évolue avec le temps. Vous avez raison de dire que plusieurs ensembles de nombres peuvent avoir la même moyenne et le même sd; cela est dû au fait que la moyenne et sd ne sont que deux éléments d'information, et l'ensemble de données peut être de 5 éléments (comme 1,3,5,7,9) ou bien plus.
Le fait que la moyenne 5 et sd de 2,83 soit "large" ou "étroit" dépend du domaine dans lequel vous travaillez.
Lorsque vous n'avez que 5 numéros, il est facile de consulter la liste complète; lorsque vous avez de nombreux nombres, des façons plus intuitives de penser à la propagation incluent des éléments tels que le résumé à cinq chiffres ou, mieux encore, des graphiques tels qu'un graphique de densité.
la source
L'écart type mesure la distance de votre population à la moyenne sous forme de variables aléatoires.
La raison pour laquelle nous passons aux fonctions et mesurons la théorie est que nous devons avoir un moyen systématique de discuter de la façon dont deux espaces de probabilité sont identiques jusqu'aux événements qui n'ont aucune chance de se produire. Maintenant que nous sommes passés aux fonctions, nous avons besoin d'un sens de la distance.
la source