Dans la définition de l’écart-type, pourquoi devons-nous équilibrer la différence avec la moyenne pour obtenir la moyenne (E) et reprendre la racine carrée à la fin? Ne pouvons-nous pas simplement simplement prendre la valeur absolue de la différence et obtenir la valeur attendue (moyenne) de celles-ci, et cela ne montrerait-il pas également la variation des données? Le nombre sera différent de la méthode carrée (la méthode de la valeur absolue sera plus petite), mais elle devrait toujours montrer l'étalement des données. Quelqu'un sait pourquoi nous prenons cette approche carrée comme norme?
La définition de l'écart type:
Ne pouvons-nous pas simplement prendre la valeur absolue à la place et rester une bonne mesure?
Réponses:
Si l'objectif de l'écart type est de résumer la dispersion d'un ensemble de données symétriques (c.-à-d. En général à quelle distance se situe chaque donnée par rapport à la moyenne), nous avons besoin d'une bonne méthode pour définir comment mesurer cette dispersion.
Les avantages de la quadrature incluent:
La quadrature pose cependant un problème en tant que mesure de propagation: les unités sont toutes au carré, alors que nous pourrions préférer que la propagation soit dans les mêmes unités que les données originales (pensez aux livres au carré, aux dollars carrés ou aux pommes au carré). . Par conséquent, la racine carrée nous permet de revenir aux unités d'origine.
Je suppose que vous pourriez dire que la différence absolue attribue un poids égal à la dispersion des données, alors que la quadrature met l'accent sur les extrêmes. Cependant, techniquement, comme d’autres l’ont souligné, la quadrature rend l’algèbre beaucoup plus facile à utiliser et offre des propriétés que la méthode absolue ne permet pas (par exemple, la variance est égale à la valeur attendue du carré de la distribution moins le carré de la moyenne de la distribution)
Il est important de noter cependant qu'il n'y a aucune raison que vous ne puissiez pas prendre la différence absolue si telle est votre préférence sur la façon dont vous souhaitez voir la propagation (en quelque sorte comment certaines personnes voient dans 5% un seuil magique pour lesvaleurs, alors qu’il dépend de la situation). En effet, il existe plusieurs méthodes concurrentes pour mesurer la propagation.p
Mon point de vue est d’utiliser les valeurs au carré car j’aime réfléchir à la manière dont il s’agit du théorème de Pythagore des statistiques: … cela m’aide aussi à me rappeler que lorsque je travaille avec des variables aléatoires indépendantes , les écarts ajoutent, les écarts-types ne le font pas. Mais ce n'est que ma préférence subjective personnelle, que je n'utilise surtout que comme aide-mémoire, n'hésitez pas à ignorer ce paragraphe.c=a2+b2−−−−−−√
Une analyse beaucoup plus approfondie peut être lue ici .
la source
La différence au carré a de plus jolies propriétés mathématiques; il est continuellement différentiable (bien quand on veut le minimiser), c'est une statistique suffisante pour la distribution gaussienne, et c'est (une version de) la norme L2 qui est utile pour prouver la convergence, etc.
L’écart absolu moyen (la notation de valeur absolue que vous suggérez) sert également à mesurer la dispersion, mais il n’est pas aussi "sage" que l’erreur au carré.
la source
Une façon de penser à cela est que l’écart-type est similaire à une "distance par rapport à la moyenne".
Comparez cela à des distances dans un espace euclidien - ceci vous donne la vraie distance, où ce que vous avez suggéré (qui, en fait, est la déviation absolue ) ressemble plus à un calcul de distance manhattan .
la source
La raison pour laquelle nous calculons l'écart type au lieu de l'erreur absolue est que nous supposons que l'erreur est normalement distribuée . Cela fait partie du modèle.
Supposons que vous mesuriez de très petites longueurs avec une règle, alors l’écart-type est une mauvaise mesure de l’erreur car vous savez que vous ne mesurerez jamais accidentellement une longueur négative. Une meilleure métrique aiderait à adapter une distribution gamma à vos mesures:
Comme l’écart-type, c’est aussi un non négatif et différentiable, mais c’est une meilleure statistique d’erreur pour ce problème.
la source
La réponse qui m’a le mieux satisfait est qu’elle découle naturellement de la généralisation d’un échantillon dans l’espace euclidien à n dimensions. On peut certainement se demander si cela devrait être fait, mais dans tous les cas:
Supposons que vos mesures sont chacune un axe de . Ensuite, vos données définissent un point dans cet espace. Vous remarquerez peut-être que les données sont toutes très similaires, vous pouvez donc les représenter avec un seul paramètre d'emplacement contraint de se trouver sur la ligne définie par . Si vous projetez votre point de donnée sur cette ligne, vous obtenez , et la distance entre le point projeté et le point de donnée actuel est.n Xi Rn xi x μ Xi=μ μ^=x¯ μ^1 n−1n−−−√σ^=∥x−μ^1∥
Cette approche vous donne également une interprétation géométrique pour la corrélation, .ρ^=cos∠(x~⃗ ,y~⃗ )
la source
La différence entre la moyenne et la moyenne a plusieurs raisons.
La variance est définie comme le 2ème moment de la déviation (le RV ici est ) et donc le carré comme moments sont simplement les attentes de puissances supérieures de la variable aléatoire.(x−μ)
Avoir un carré par opposition à la fonction de valeur absolue donne une belle fonction continue et différentiable (la valeur absolue n'est pas différentiable à 0) - ce qui en fait un choix naturel, en particulier dans le contexte de l'estimation et de l'analyse de régression.
La formulation au carré tombe également naturellement en dehors des paramètres de la distribution normale.
la source
Encore une autre raison (en plus des excellentes ci-dessus) vient de Fisher lui-même, qui a montré que l'écart type est plus "efficace" que l'écart absolu. Ici, l'efficacité dépend de la fluctuation de la valeur d'une statistique sur différents échantillons d'une population. Si votre population est normalement distribuée, l'écart-type de différents échantillons de cette population tendra en moyenne à vous donner des valeurs assez similaires les unes aux autres, alors que l'écart absolu vous donnera des nombres plus dispersés. Évidemment, c’est évidemment dans des circonstances idéales, mais cette raison a convaincu beaucoup de gens (les maths étant plus propres), de sorte que la plupart des gens travaillaient avec des écarts-types.
la source
Pour que les gens sachent, il y a une question Math Overflow sur le même sujet.
Pourquoi-est-ce-que-si-cool-à-carrés-nombres-en-recherche-de-la-déviation standard
Le message à retenir est que l’utilisation de la racine carrée de la variance facilite les calculs. Une réponse similaire est donnée par Rich et Reed ci-dessus.
la source
Remarquez ce que cela rend possible: dites que je lance une bonne pièce 900 fois. Quelle est la probabilité que le nombre de têtes que je reçois se situe entre 440 et 455 inclus? Il suffit de trouver le nombre attendu de têtes ( ) et la variance du nombre de têtes ( ), puis de rechercher la probabilité avec une distribution normale (ou gaussienne) avec l'espérance et l'écart type compris entre et . Abraham de Moivre l'a fait avec des lancers de pièces au 18ème siècle, montrant ainsi que la courbe en forme de cloche vaut quelque chose.450 225=152 450 15 439.5 455.5
la source
Je pense que le contraste entre l’utilisation des déviations absolues et des déviations au carré devient plus clair une fois que l’on dépasse une variable et que l’on réfléchit à la régression linéaire. Il y a une bonne discussion sur http://en.wikipedia.org/wiki/Least_absolute_deviations , en particulier la section "Contraste des moindres carrés avec des déviations les moins absolues", qui renvoie à des exercices pour les étudiants avec un jeu d'applets à l' adresse http: // www. .math.wpi.edu / Course_Materials / SAS / lablets / 7.3 / 73_choices.html .
Pour résumer, les déviations moindres absolues sont plus robustes pour les valeurs aberrantes que les moindres carrés ordinaires, mais elles peuvent être instables (le moindre changement dans une donnée peut donner de gros changements dans la ligne ajustée) et n'a pas toujours une solution unique - il peut y avoir toute une gamme de lignes aménagées. Les déviations les moins absolues requièrent également des méthodes itératives, tandis que les moindres carrés ordinaires proposent une solution simple, mais ce n'est pas un si gros problème maintenant comme c'était le cas à l'époque de Gauss et Legendre, bien sûr.
la source
Il y a plusieurs raisons; probablement le principal est que cela fonctionne bien comme paramètre de la distribution normale.
la source
À bien des égards, l’utilisation de l’écart type pour résumer la dispersion nous amène à une conclusion. On pourrait dire que SD suppose implicitement une distribution symétrique en raison de son traitement égal de la distance inférieure à la moyenne de la distance supérieure à la moyenne. Le DS est étonnamment difficile à interpréter pour les non-statisticiens. On pourrait soutenir que la différence moyenne de Gini a une application plus large et est beaucoup plus interprétable. Il n’est pas nécessaire de déclarer son choix d’une mesure de la tendance centrale comme le fait l’utilisation du développement durable pour la moyenne. La différence moyenne de Gini est la différence absolue moyenne entre deux observations différentes quelconques. En plus d'être robuste et facile à interpréter, il est aussi efficace que SD de 0,98 si la distribution était réellement gaussienne.
la source
L'estimation de l'écart type d'une distribution nécessite de choisir une distance.
N'importe laquelle des distances suivantes peut être utilisée:
Nous utilisons habituellement la distance euclidienne naturelle ( ), celle que tout le monde utilise dans la vie quotidienne. La distance que vous proposez est celle avec . Les deux sont de bons candidats mais ils sont différents.n=2 n=1
On pourrait aussi utiliser .n=3
Je ne suis pas sûr que vous aimerez ma réponse, mon propos, contrairement à d'autres, n'est pas de démontrer que est meilleur. Je pense que si vous voulez estimer l'écart type d'une distribution, vous pouvez absolument utiliser une distance différente.n=2
la source
Cela dépend de ce dont vous parlez lorsque vous dites "diffusion des données". Pour moi, cela pourrait signifier deux choses:
Pour le point 1), il n'y a pas de raison particulière d'utiliser l'écart type comme mesure de la dispersion, sauf lorsque la distribution d'échantillonnage est normale. La mesure est une mesure plus appropriée dans le cas d'une distribution d'échantillonnage de Laplace . Je suppose que l'écart-type est utilisé ici à cause de l'intuition reportée du point 2). Probablement aussi à cause du succès de la modélisation des moindres carrés en général, pour laquelle l’écart type est la mesure appropriée. Probablement aussi parce que calculer est généralement plus facile que calculer pour la plupart des distributions.E(|X−μ|) E(X2) E(|X|)
Maintenant, pour le point 2), il existe une très bonne raison d’utiliser la variance / écart type comme mesure de la dispersion, dans un cas particulier mais très courant. Vous pouvez le voir dans l'approximation de Laplace à postérieur. Avec les données et les informations antérieures , écrivez la partie postérieure d'un paramètre sous la forme:D I θ
J'ai utilisé comme variable muette pour indiquer que le dénominateur ne dépend pas de . Si le postérieur a un maximum unique bien arrondi (c'est-à-dire pas trop près d'une "limite"), nous pouvons augmenter la probabilité de log sur son maximum . Si nous prenons les deux premiers termes de l’agrandissement du taylor, nous obtenons (en utilisant prime pour la différenciation):t θ θmax
Mais nous avons ici que parce que est un "bien arrondi", , nous avons donc:θmax h′(θmax)=0
Si on branche cette approximation on obtient:
Laquelle, sauf que la notation est une distribution normale, avec une moyenne égale à , et une variance égale àE(θ∣DI)≈θmax
( est toujours positif car nous avons un maximum bien arrondi). Cela signifie donc que dans les "problèmes réguliers" (ce qui est la plupart d'entre eux), la variance est la quantité fondamentale qui détermine l'exactitude des estimations pour . Ainsi, pour les estimations basées sur une grande quantité de données, l’écart type a beaucoup de sens en théorie - il indique en gros tout ce que vous devez savoir. Le même argument s’applique (avec les mêmes conditions) dans les cas multidimensionnels avec étant une matrice de Hesse. Les entrées diagonales sont aussi essentiellement des variations ici aussi.−h′′(θmax) θ h′′(θ)jk=∂h(θ)∂θj∂θk
Le fréquentiste qui utilise la méthode du maximum de vraisemblance aboutira essentiellement à la même conclusion car le MLE tend à être une combinaison pondérée des données et, pour les grands échantillons, le théorème de la limite centrale s'applique et vous obtenez essentiellement le même résultat si nous prenons mais avec et interchangés: (voyez si vous pouvez deviner quel paradigme je préfère: P). Dans les deux cas, l’écart type est donc une mesure théorique importante de la dispersion.p(θ∣I)=1 θ θmax
la source
"Pourquoi faire la différence" au lieu de "prendre une valeur absolue"? Pour répondre de manière très précise, il existe une littérature qui donne les raisons pour lesquelles elle a été adoptée et les raisons pour lesquelles la plupart de ces raisons ne tiennent pas. "Ne pouvons-nous pas simplement prendre la valeur absolue ...?". Je suis au courant de la littérature dans laquelle la réponse est oui, c'est en train de se faire et cela est considéré comme étant avantageux.
L'auteur Gorard déclare, tout d'abord, que l'utilisation de carrés a été précédemment adoptée pour des raisons de simplicité de calcul, mais que ces raisons initiales ne tiennent plus. Gorard déclare, en second lieu, que la méthode MLS a été adoptée parce que Fisher a constaté que les résultats d'échantillons d'analyses utilisant la méthode MLS présentaient des écarts plus faibles que ceux qui utilisaient des différences absolues (approximativement). Ainsi, il semblerait que l’OLS puisse présenter des avantages dans certaines circonstances idéales; Cependant, Gorard note qu'il existe un certain consensus (et il affirme que Fisher est d'accord) que dans des conditions réelles (mesures imparfaites d'observations, distributions non uniformes, études d'une population sans inférence à partir d'un échantillon), l'utilisation de carrés est pire que différences absolues.
Réponse de Gorard à votre question "Ne pouvons-nous pas simplement prendre la valeur absolue de la différence et obtenir la valeur attendue (moyenne) de ceux-ci?" est oui. Un autre avantage est que l’utilisation des différences produit des mesures (mesures des erreurs et des variations) liées à la façon dont nous percevons ces idées dans la vie. Gorard dit: imaginez des personnes partageant la facture du restaurant de manière égale et certains pourraient intuitivement remarquer que cette méthode est injuste. Personne ne commettra les erreurs; les différences sont le point.
Enfin, en utilisant des différences absolues, note-t-il, chaque observation est traitée de la même manière, alors que la différence de pondération donne aux observations prédites un poids légèrement supérieur à celui des observations, ce qui revient à permettre à certaines observations d'être incluses plusieurs fois dans l'étude. En résumé, son idée générale est qu’il n’ya pas beaucoup de raisons gagnantes d’utiliser des carrés et que, au contraire, l’utilisation de différences absolues présente des avantages.
Références:
la source
Parce que les carrés peuvent permettre l'utilisation de nombreuses autres opérations ou fonctions mathématiques plus facilement que les valeurs absolues.
Exemple: des carrés peuvent être intégrés, différenciés, utilisés dans des fonctions trigonométriques, logarithmiques et autres, en toute simplicité.
la source
Lors de l'ajout de variables aléatoires, leurs variances s'ajoutent pour toutes les distributions. La variance (et donc l’écart type) est une mesure utile pour presque toutes les distributions et n’est en aucun cas limitée aux distributions gaussiennes (ou "normales"). Cela favorise son utilisation comme mesure d'erreur. L’absence d’unicité est un problème grave, avec des différences absolues, car il existe souvent un nombre infini de "crises" à mesures égales, et pourtant, la "solution intermédiaire" est favorisée de la manière la plus réaliste. De plus, même avec les ordinateurs actuels, l'efficacité du calcul est importante. Je travaille avec de grands ensembles de données et le temps de calcul est important. Cependant, il n’existe pas de «meilleure» mesure absolue absolue des résidus, comme le soulignent certaines réponses précédentes. Des circonstances différentes appellent parfois des mesures différentes.
la source
Naturellement, vous pouvez décrire la dispersion d'une distribution de manière significative (déviation absolue, quantiles, etc.).
Un fait intéressant est que la variance est le deuxième moment central et que chaque distribution est décrite de manière unique par ses moments, s'ils existent. Un autre fait intéressant est que la variance est beaucoup plus facile à calculer mathématiquement que toute métrique comparable. Un autre fait est que la variance est l'un des deux paramètres de la distribution normale pour la paramétrisation habituelle et que la distribution normale n'a que 2 moments centraux non nuls qui sont ces deux paramètres mêmes. Même pour des distributions non normales, il peut être utile de penser dans un cadre normal.
Selon moi, l'écart-type existe en tant que tel parce que, dans les applications, la racine carrée de la variance apparaît régulièrement (par exemple pour normaliser un varianble aléatoire), ce qui nécessitait un nom.
la source
Une approche différente et peut-être plus intuitive consiste à prendre en considération la régression linéaire par rapport à la régression médiane.
Supposons que notre modèle est que . Ensuite, nous trouvons b en minimisant le résidu carré attendu, .E(y|x)=xβ β=argminbE(y−xb)2
Si au lieu de cela notre modèle est que la médiane , alors nous trouvons nos estimations de paramètres en minimisant les résidus absolus ,.(y|x)=xβ β=argminbE|y−xb|
En d'autres termes, l'utilisation d'erreur absolue ou carrée dépend de la modélisation de la valeur attendue ou de la valeur médiane.
Si la distribution, par exemple, affiche une hétéroscédasticité asymétrique, il existe une grande différence entre la façon dont la pente de la valeur attendue de change sur et celle de la valeur médiane de .y x y
Koenker et Hallock ont un bel article sur la régression quantile, où la régression médiane est un cas particulier: http://master272.com/finance/QR/QRJEP.pdf .
la source
Mon hypothèse est la suivante: la plupart des populations (distributions) ont tendance à se rassembler autour de la moyenne. Plus une valeur est éloignée de la moyenne, plus elle est rare. Afin d'exprimer de manière adéquate à quel point une valeur est "hors ligne", il est nécessaire de prendre en compte à la fois sa distance par rapport à la moyenne et son degré d'occurrence (normalement parlant). Cela correspond à la quadrature de la moyenne par rapport aux valeurs qui présentent des écarts plus faibles. Une fois que toutes les variances ont été moyennées, il est correct de prendre la racine carrée, qui ramène les unités à leurs dimensions d'origine.
la source
La quadrature amplifie les écarts plus importants.
Si votre échantillon contient des valeurs sur tout le graphique, pour que les 68,2% se situent dans le premier écart-type, votre écart-type doit être un peu plus large. Si toutes vos données ont tendance à tomber autour de la moyenne, alors σ peut être plus étroit.
Certains disent que c'est pour simplifier les calculs. L'utilisation de la racine carrée positive du carré aurait résolu ce problème afin que l'argument ne flotte pas.
Donc, si la simplicité algébrique était le but recherché, alors il aurait ressemblé à ceci:
De toute évidence, cette quadrature a également pour effet d’amplifier les erreurs aberrantes (doh!).
la source
sqrt((x-mu)^2)
, votre formule est trompeuse. De plus, ce n'est pas parce que la quadrature a pour effet d'amplifier des écarts plus importants que c'est la raison pour laquelle on préfère la variance par rapport au MAD . Au contraire, c'est une propriété neutre, car nous voulons souvent quelque chose de plus robuste que le MAD . Enfin, le fait que la variance soit mathématiquement plus traitable que le MAD est un problème mathématique beaucoup plus profond que celui que vous avez exposé dans cet article.Nous comparons la différence des x à la moyenne car la distance euclidienne, proportionnelle à la racine carrée des degrés de liberté (nombre de x, dans une mesure de population), est la meilleure mesure de dispersion.
Calculer la distance
Quelle est la distance entre le point 0 et le point 5?
Ok, c'est trivial parce que c'est une seule dimension.
Que diriez-vous de la distance pour un point au point 0, 0 au point 3, 4?
Si nous ne pouvons aller que dans une dimension à la fois (comme dans les quartiers), nous additionnons simplement les nombres. (Ceci est parfois appelé distance de Manhattan).
Mais qu'en est-il d'aller dans deux dimensions à la fois? Puis (d'après le théorème de Pythagore que nous avons tous appris au lycée), nous quadrillons la distance dans chaque dimension, additionnons les carrés, puis prenons la racine carrée pour trouver la distance entre l'origine et le point.
Que diriez-vous de la distance d'un point à 0, 0, 0 au point 1, 2, 2?
C'est juste
parce que la distance pour les deux premiers x constitue la jambe pour calculer la distance totale avec le x final.
Nous pouvons continuer à étendre la règle du carré de la distance de chaque dimension, ce qui se généralise à ce que nous appelons une distance euclidienne, pour les mesures orthogonales dans un espace hyperdimensionnel, comme suit:
et donc la somme des carrés orthogonaux est la distance au carré:
Qu'est-ce qui fait qu'une mesure est orthogonale (ou à angle droit) par rapport à une autre? La condition est qu’il n’y ait pas de relation entre les deux mesures. Nous chercherions à ce que ces mesures soient indépendantes et distribuées individuellement ( iid ).
Variance
Rappelons maintenant la formule de la variance de population (à partir de laquelle nous obtiendrons l’écart-type):
Si nous avons déjà centré les données à 0 en soustrayant la moyenne, nous avons:
Nous voyons donc que la variance est simplement la distance au carré divisée par le nombre de degrés de liberté (le nombre de dimensions sur lesquelles les variables sont libres de varier). C'est également la contribution moyenne à la par mesure. "Variance quadratique moyenne" serait également un terme approprié.distance2
Écart-type
Ensuite, nous avons l’écart type, qui n’est que la racine carrée de la variance:
Qui est équivalent, la distance , divisée par la racine carrée des degrés de liberté:
Signifie une déviation absolue
La déviation absolue moyenne (MAD) est une mesure de la dispersion qui utilise la distance de Manhattan, ou la somme des valeurs absolues des différences par rapport à la moyenne.
Là encore, en supposant que les données soient centrées (la moyenne soustraite), la distance de Manhattan est divisée par le nombre de mesures:
Discussion
Ce tableau reflète les informations ci-dessus de manière plus concise:
Commentaires:
Voici 10 simulations d’un million d’échantillons de la distribution normale standard:
Conclusion
Nous préférons les différences au carré lorsque nous calculons une mesure de dispersion, car nous pouvons exploiter la distance euclidienne, ce qui nous donne une meilleure statistique descriptive de la dispersion. Lorsqu'il y a des valeurs plus relativement extrêmes, la distance euclidienne est prise en compte dans la statistique, tandis que la distance de Manhattan donne un poids égal à chaque mesure.
la source