Écart absolu moyen par rapport à l'écart type

35

Dans le manuel "Nouvelles mathématiques complètes pour le niveau O" de Greer (1983), je vois un écart moyen calculé comme suit:

Résumer les différences absolues entre les valeurs simples et la moyenne. Ensuite, obtenez sa moyenne. Dans le chapitre, le terme écart moyen est utilisé.

Mais j'ai récemment vu plusieurs références qui utilisent le terme écart type et voici ce qu'elles font:

Calculez les carrés des différences entre les valeurs individuelles et la moyenne. Ensuite, obtenez leur moyenne et enfin la racine de la réponse.

J'ai essayé les deux méthodes sur un ensemble commun de données et leurs réponses sont différentes. Je ne suis pas un statisticien. J'étais confus en essayant d'enseigner la déviation à mes enfants.

En bref, les termes écart type et écart moyen sont -ils identiques ou mon ancien manuel est-il erroné?

Itols
la source
2
Les deux quantités diffèrent. Ils pondèrent les données différemment. L'écart type sera plus grand et il est relativement plus affecté par des valeurs plus grandes. L’écart type (plus particulièrement la version à n dénominateur) peut être considéré comme un écart racine-moyenne. Les écarts-types sont plus couramment utilisés.
Glen_b -Reinstate Monica
6
Très étroitement lié : stats.stackexchange.com/questions/118/… .
whuber
Gary Kader a une façon amusante d' apprendre aux enfants à calculer la déviation absolue moyenne .
Iain Samuel McLean Elder
1
Incidemment, une des raisons pour lesquelles les gens ont tendance à préférer l’écart-type est que les variances des sommes de variables aléatoires non liées s’ajoutent (et que les variables associées ont également une formule simple). Cela ne se produit pas avec un écart moyen.
Glen_b -Reinstate Monica
2
@Alexis, le phrasé était médiocre. Pour les variables aléatoires indépendantes, Var (X + Y) = Var (X) + Var (Y). Ce fait est utilisé partout (cela conduit aux termes bien connus de lors de la normalisation de formules impliquant des moyennes, comme dans t-statistics à un échantillon, par exemple). En conséquence, il n’ya pas de fait général pour l’écart moyen. n
Glen_b -Reinstate Monica

Réponses:

27

Les deux répondent à quel point vos valeurs sont réparties autour de la moyenne des observations.

Une observation inférieure de 1 à la moyenne est également "éloignée" de la moyenne en tant que valeur supérieure de 1 à la moyenne. Par conséquent, vous devriez négliger le signe de la déviation. Ceci peut être fait de deux façons:

  • Calculez la valeur absolue des écarts et additionnez-les.

  • Place les déviations et additionne ces carrés. En raison du carré, vous accordez plus de poids aux déviations élevées et la somme de ces carrés sera donc différente de la somme des moyennes.

Après avoir calculé la "somme des écarts absolus" ou la "racine carrée de la somme des écarts carrés", calculez leur moyenne pour obtenir respectivement "l'écart moyen" et "l'écart type".

La déviation moyenne est rarement utilisée.

Kasper
la source
Alors, quand on dit simplement «écart», veut-on dire «écart type»?
Itsols
Je conviens que 1 ci-dessus ou ci-dessous indiquerait un "changement" significatif ou une "dispersion" du point de vue d'un homme ordinaire. Mais sa quadrature donnerait des valeurs plus grandes et cela pourrait ne pas être mon "changement réel". Peut-être que je me trompe mais c'est comme ça que je vois les choses: /
itsols
La plupart du temps, le terme écart type (racine carrée de la variance) est utilisé. Le calcul des carrés est généralement effectué car il facilite de nombreux autres calculs.
Kasper
1
@itsols Techniquement, vous devez toujours spécifier le type de statistique d'écart que vous calculez pour l'ensemble de données - l'écart de mot seul doit faire référence à l'écart d'un point de donnée unique par rapport à la moyenne (de la manière dont Kasper l'utilise dans la réponse )
AmeliaBR
@itsols, +1 à Amelia. En effet, personne ne dit d'une statistique de jeu de données simplement d'un "écart". Une statistique est "déviation absolue moyenne" ou "racine de la déviation quadratique moyenne" ou autre.
Le
15

Aujourd'hui, les valeurs statistiques sont principalement calculées par des programmes informatiques (Excel, ...) et non plus par des calculatrices à main. Par conséquent, je dirais que calculer "l'écart moyen" n'est pas plus fastidieux que calculer "l'écart type". Bien que l’écart type puisse avoir "... des propriétés mathématiques qui le rendent plus utile en statistique", il s’agit en fait d’une distorsion du concept de variance par rapport à une moyenne, car elle donne une pondération supplémentaire aux points de données éloignés de la moyenne. Cela peut prendre un peu de temps, mais j’espère que les statisticiens reviendront à utiliser plus souvent "l’écart moyen" lorsqu’on discutera de la distribution entre les points de données - cela représente plus fidèlement notre vision de la distribution.

Andyl
la source
Vous faites une affirmation extraordinaire sur la façon dont les personnes (statistiquement qualifiées) «pensent réellement». Quelle est la source de vos informations à ce sujet?
whuber
7
La source est simplement les personnes que j'ai interrogées sur ce sujet, ainsi que moi-même. À la question: Comment imaginez-vous la variation de cet ensemble de données? la réponse était toujours exprimée en fonction de la distance linéaire par rapport à la moyenne - la réponse ne comportait jamais de carrés ni de racines carrées. Certes, je suis un ingénieur, pas un "statisticien", mais je demanderais à quiconque de se lancer un défi sur ce sujet. Oui, nous aimons les maths de la déviation standard - c'est amusant, mais est-ce vraiment ainsi que vous imaginez la déviation par rapport à la moyenne?
andyl
2
Cela dépend du but. Pour l’exploration des données, j’ai tendance à utiliser des estimations robustes de la dispersion, basées sur les rangs, telles que les écarts médians par rapport aux médianes, qui sont dans l’esprit proches de votre proposition. Mais pour beaucoup d’autres travaux, en particulier lors de l’évaluation (même mentale) du potentiel de signification statistique, de l’estimation de la taille des échantillons, de la détermination de la valeur des informations et du choix de procédures statistiques concurrentes, la réflexion en termes de variances (et donc d’écarts types) est essentiel. Les écarts moyens ne sont pas un substitut, comme le montre clairement la mathématique.
whuber
1
Découvrez ce papier .
Pete
@Pete Comment vous y êtes arrivé?
Vicrobot le
9

Ils mesurent tous deux le même concept, mais ne sont pas égaux.

1n|xix¯|1n(xix¯)2

a+ba+b
|xix¯|=(xix¯)2(xix¯)2

n

1n(xix¯)2

L’écart type est préféré parce qu’il est mathématiquement plus facile de travailler plus tard, lorsque les calculs deviennent plus compliqués.

ltronneberg
la source
3
La valeur absolue d'une somme n'est généralement pas la même que la somme des valeurs absolues! Ni les fonctions carrées, les racines carrées, ni les fonctions absolues ne sont linéaires. C'est pourquoi la somme après application de la fonction est différente de l'application de la fonction après avoir pris la somme.
AmeliaBR
@AmeliaBR vous êtes bien sûr parfaitement correct!
ltronneberg
Le reste de l'argument était bon, cependant, c'est pourquoi j'ai décidé de supprimer l'énoncé problématique.
AmeliaBR
8

@itsols, je vais ajouter à la notion importante de Kasper The mean deviation is rarely used. Pourquoi l' écart type est-il généralement considéré comme une meilleure mesure de la variabilité que l'écart absolu moyen? Parce que la moyenne arithmétique est le lieu de la somme minimale des déviations au carré (et non de la somme des absolus).

Supposons que vous souhaitiez évaluer le degré d'altruisme. Dans ce cas, vous ne demanderez probablement pas à une personne combien elle est prête à donner de l'argent dans une "situation générale" de la vie. Au lieu de cela, vous choisirez de demander combien il est prêt à le faire dans la situation confinée, où il dispose de ressources minimales pour sa propre vie. C'est-à-dire quelle est la quantité d'altruisme individuel dans la situation lorsque cette quantité est minimale?

De même, quel est le degré de variabilité de ces données? Intuitivement, le meilleur indice de mesure est celui qui est minimisé (ou maximisé) jusqu'à la limite dans ce contexte. Le contexte est "autour de la moyenne arithmétique". Puis st. la déviation est le meilleur choix en ce sens. Si le contexte était "autour de la médiane" alors moyenne | déviation | serait le meilleur choix, car la médiane est le lieu de la somme minimale des déviations absolues.

tnphns
la source
4
Votre justification du développement durable basé sur Locus est circulaire. Vous justifiez le développement durable en accordant une importance particulière à la moyenne arithmétique - tout cela montre qu’ils entretiennent une relation, et non que le développement durable est spécial. On peut également attribuer de l’importance à la médiane, qui est le lieu de la somme minimale de la perte absolue . Les vraies raisons pour lesquelles SD est utilisé plus souvent, c'est parce que les maths sont plus faciles à travailler ... de plus, c'est plus facile de calcul (les deux médianes nécessitent un "tri" et les carrés sont plus rapides à calculer que les instructions de branche). La déviation philosophiquement absalute a une plus grande valeur.
Samthebest
7

Une chose à noter est que la raison la plus probable pour laquelle votre manuel, vieux de 30 ans, a utilisé l'écart moyen absolu par opposition à l'écart type est qu'il est plus facile de calculer à la main (pas de racines carrées / carrées). Maintenant que les calculatrices sont facilement accessibles aux élèves du secondaire, il n’ya aucune raison de ne pas leur demander de calculer l’écart type.

Il existe encore des situations dans lesquelles des écarts absolus sont utilisés à la place des écarts types lors de l'ajustement de modèles complexes. Les écarts absolus sont moins sensibles aux valeurs extrêmes extrêmes (valeurs éloignées de la moyenne / ligne de tendance) par rapport aux écarts types car ils ne compensent pas cette distance avant de l'ajouter aux valeurs des autres points de données. Puisque les méthodes d’ajustement de modèles visent à réduire l’écart total par rapport à la ligne de tendance (en fonction de l’écart de calcul utilisé), les méthodes utilisant l’écart type peuvent aboutir à la création d’une ligne de tendance qui s'écarte de la majorité des points pour se rapprocher des valeurs aberrantes. . L’utilisation d’écarts absolus réduit cette distorsion, mais au prix de compliquer le calcul de la ligne de tendance.

En effet, comme d’autres l’ont noté, l’écart-type présente des propriétés et des relations mathématiques qui le rendent généralement plus utile en statistique. Mais "utile" ne doit jamais être confondu avec parfait.

AmeliaBR
la source
1
simplement curieux, quelles sont les "propriétés mathématiques" qui rendent SD plus utile que la déviation absolue moyenne? excellente réponse au fait.
Weipeng L
@pongba L'écart-type est intrinsèque à de nombreux modèles statistiques qui supposent une variation aléatoire de plusieurs effets pouvant s'annuler (c'est-à-dire des données normalement distribuées). Cela inclut la précision de l'échantillonnage (marge d'erreur) lors de l'utilisation d'une enquête auprès d'une population nombreuse. Si vos données respectent ce modèle, vous pouvez estimer la probabilité d'obtenir une valeur à partir du nombre de DS de la moyenne. Vous pouvez calculer le SD de plusieurs effets indépendants à partir du SD de composants individuels. Voir aussi: en.m.wikipedia.org/wiki/Standard_deviation
AmeliaBR
7

Les deux mesurent la dispersion de vos données en calculant la distance des données à leur moyenne.

  1. l' écart absolu moyen utilise la norme L1 (on l'appelle aussi distance de Manhattan ou distance rectiligne )
  2. l' écart type utilise la norme L2 (également appelée distance euclidienne )

La différence entre les deux normes est que l’ écart type calcule le carré de la différence alors que l’ écart absolu moyen ne regarde que la différence absolue. Par conséquent, les valeurs aberrantes importantes créeront une dispersion plus élevée lorsque l’écart type sera utilisé à la place de l’autre méthode. La distance euclidienne est en effet aussi plus souvent utilisée. La raison principale est que l' écart typeavoir de belles propriétés lorsque les données sont normalement distribuées. Donc, dans cette hypothèse, il est recommandé de l'utiliser. Cependant, les gens font souvent cette hypothèse pour des données qui ne sont pas distribuées normalement, ce qui crée des problèmes. Si vos données ne sont pas distribuées normalement, vous pouvez toujours utiliser l'écart type, mais vous devez faire attention à l'interprétation des résultats.

Enfin, vous devez savoir que les deux mesures de dispersion sont des cas particuliers de la distance de Minkowski , pour p = 1 et p = 2. Vous pouvez augmenter p pour obtenir d’autres mesures de la dispersion de vos données.

RockScience
la source
Il y a aussi un message sur math.stackexchange à ce sujet: math.stackexchange.com/questions/384003/l1-norm-and-l2-norm
RockScience
6

Ce sont des mesures similaires qui tentent de quantifier la même notion. En général, vous utilisez st. écart, car il a de bonnes propriétés, si vous faites une hypothèse sur la distribution sous-jacente.

D'autre part, la valeur absolue de la déviation moyenne pose certains problèmes d'un point de vue mathématique, car vous ne pouvez pas la différencier et vous ne pouvez pas l'analyser facilement. Quelques discussions ici .

iliasfl
la source
1

Non tu as tort. Je rigole. Cependant, il existe de nombreuses raisons valables pour lesquelles on voudrait calculer l'écart moyen plutôt que les écarts std formels. De cette manière, je suis d'accord avec le point de vue de mes frères ingénieurs. Certes, si je compile des statistiques pour les comparer à un ensemble de travaux existants qui expriment des conclusions qualitatives et quantitatives, je m'en tiendrai à std. Mais, par exemple, supposons que j'essaie de courir vitealgorithmes de détection d'anomalies sur des données binaires générées par une machine. Je ne suis pas après des comparaisons académiques comme objectif final. Mais je suis intéressé par l’inférence fondamentale sur la "diffusion" d’un flux particulier de données sur sa moyenne. Je suis également intéressé par le calcul itératif et aussi efficace que possible. Dans le matériel électronique numérique, nous jouons tout le temps à des trucs sales - nous distillons des multiplications et des divisions en décalages gauche et droit, respectivement, et pour "calculer" les valeurs absolues, nous lâchons simplement le bit de signe (et calculons le complément à deux si nécessaire , les deux transforme facilement). Mon choix est donc de le calculer de la manière la plus simple possible et d'appliquer des seuils linéaires à mes calculs pour une détection rapide des anomalies sur les fenêtres temporelles souhaitées.

NotATroll
la source
1
L'écart type peut être calculé efficacement et simplement avec un algorithme en ligne, comme n'importe quel moment (y compris l'écart absolu moyen). Ainsi, l'exigence d'un calcul rapide ou simple n'excluerait pas cela (ni aucun estimateur de propagation basé sur le moment).
whuber
0

Les deux mesures diffèrent en effet. La première est souvent appelée déviation absolue moyenne (MAD) et la seconde, déviation standard (STD). Dans les applications intégrées avec une puissance de calcul extrêmement limitée et une mémoire de programme limitée, il peut être très souhaitable d'éviter les calculs de racine carrée.

D'après un rapide test approximatif, il semble que MAD = f * STD avec f compris entre 0,78 et 0,80 pour un ensemble d'échantillons aléatoires distribués gaussiens.

Marco van Steen
la source
0

Amar Sagoo a un très bon article expliquant ceci: [ http://blog.amarsagoo.info/2007/09/making-sense-of-standard-deviation.html]

Pour ajouter ma propre tentative de compréhension intuitive:

La déviation moyenne est une façon décente de demander à quel point un point "moyen" hypothétique se situe par rapport à la moyenne, mais cela ne fonctionne pas vraiment si vous demandez à quel point tous les points sont éloignés les uns des autres ou comment les données sont "réparties".

L'écart-type consiste à demander quelle est la distance entre tous les points. Par conséquent, il intègre davantage d'informations utiles que l'écart-type (c'est pourquoi l'écart-type n'est généralement utilisé que comme un tremplin vers la compréhension de l'écart-type).

Une bonne analogie est le théorème de Pythagore. Le théorème de Pythagore nous dit la distance entre des points en deux dimensions en prenant la distance horizontale et la distance verticale, en les plaçant au carré, en ajoutant les carrés et en prenant la racine carrée du total.

Si vous l'examinez attentivement, la formule de l'écart type (population) est fondamentalement la même que celle du théorème de Pythagore, mais avec beaucoup plus que deux dimensions (et en utilisant la distance de chaque point à la moyenne comme distance dans chaque dimension). En tant que tel, il donne l'image la plus précise de la "distance" entre tous les points de votre ensemble de données.

Pour pousser cette analogie un peu plus loin, l’écart absolu moyen équivaudrait à prendre la moyenne des distances horizontale et verticale, qui est plus courte que la distance totale, tandis que l’écart absolu total additionnerait les distances horizontale et verticale, qui sont plus longues. que la distance réelle.

Isaac Demme
la source
Je suppose que lorsque vous parlez de déviation moyenne, vous entendez une déviation absolue, ce dont le PO parlait. La terminologie est importante car l’écart moyen est toujours égal à 0. En ce qui concerne la différence entre l’écart absolu moyen et l’écart type, les deux impliquent l’écart de TOUS les points par rapport à la moyenne. L'une implique la somme des déviations absolues par rapport à la moyenne, tandis que la est la racine carrée si la somme de la déviation au carré.
Michael R. Chernick
0

L'écart-type représente la dispersion due à des processus aléatoires. Spécifiquement, de nombreuses mesures physiques qui devraient être dues à la somme de nombreux processus indépendants ont des distributions normales (courbe de Bell).

Y=1σ2πe(xμ)22σ2

Yxμσ

En d’autres termes, l’écart type est un terme qui résulte de la somme de variables aléatoires indépendantes. Donc, je ne suis pas d’accord avec certaines des réponses données ici: l’écart-type n’est pas seulement une alternative à l’écart moyen qui "se révèle plus pratique pour des calculs ultérieurs". L'écart-type est le bon moyen de modéliser la dispersion pour des phénomènes normalement distribués.

Si vous regardez l'équation, vous pouvez voir que l'écart type pèse plus lourdement que les écarts les plus importants par rapport à la moyenne. Intuitivement, vous pouvez penser à la déviation moyenne comme à la mesure de la déviation moyenne réelle par rapport à la moyenne, tandis que la déviation standard représente une distribution en forme de cloche appelée "normale" autour de la moyenne. Ainsi, si vos données sont distribuées normalement, l’écart type vous indique que si vous échantillonnez plus de valeurs, environ 68% d’entre elles se trouveront dans un écart type autour de la moyenne.

D'autre part, si vous avez une seule variable aléatoire, la distribution peut ressembler à un rectangle, avec une probabilité égale que des valeurs apparaissent n'importe où dans une plage. Dans ce cas, l'écart moyen pourrait être plus approprié.

TL; DR si vous avez des données dues à de nombreux processus aléatoires sous-jacents ou que vous savez simplement être distribuées normalement, utilisez la fonction d'écart type.

Aneil Mallavarapu
la source