Dans le manuel "Nouvelles mathématiques complètes pour le niveau O" de Greer (1983), je vois un écart moyen calculé comme suit:
Résumer les différences absolues entre les valeurs simples et la moyenne. Ensuite, obtenez sa moyenne. Dans le chapitre, le terme écart moyen est utilisé.
Mais j'ai récemment vu plusieurs références qui utilisent le terme écart type et voici ce qu'elles font:
Calculez les carrés des différences entre les valeurs individuelles et la moyenne. Ensuite, obtenez leur moyenne et enfin la racine de la réponse.
J'ai essayé les deux méthodes sur un ensemble commun de données et leurs réponses sont différentes. Je ne suis pas un statisticien. J'étais confus en essayant d'enseigner la déviation à mes enfants.
En bref, les termes écart type et écart moyen sont -ils identiques ou mon ancien manuel est-il erroné?
Réponses:
Les deux répondent à quel point vos valeurs sont réparties autour de la moyenne des observations.
Une observation inférieure de 1 à la moyenne est également "éloignée" de la moyenne en tant que valeur supérieure de 1 à la moyenne. Par conséquent, vous devriez négliger le signe de la déviation. Ceci peut être fait de deux façons:
Calculez la valeur absolue des écarts et additionnez-les.
Place les déviations et additionne ces carrés. En raison du carré, vous accordez plus de poids aux déviations élevées et la somme de ces carrés sera donc différente de la somme des moyennes.
Après avoir calculé la "somme des écarts absolus" ou la "racine carrée de la somme des écarts carrés", calculez leur moyenne pour obtenir respectivement "l'écart moyen" et "l'écart type".
La déviation moyenne est rarement utilisée.
la source
Aujourd'hui, les valeurs statistiques sont principalement calculées par des programmes informatiques (Excel, ...) et non plus par des calculatrices à main. Par conséquent, je dirais que calculer "l'écart moyen" n'est pas plus fastidieux que calculer "l'écart type". Bien que l’écart type puisse avoir "... des propriétés mathématiques qui le rendent plus utile en statistique", il s’agit en fait d’une distorsion du concept de variance par rapport à une moyenne, car elle donne une pondération supplémentaire aux points de données éloignés de la moyenne. Cela peut prendre un peu de temps, mais j’espère que les statisticiens reviendront à utiliser plus souvent "l’écart moyen" lorsqu’on discutera de la distribution entre les points de données - cela représente plus fidèlement notre vision de la distribution.
la source
Ils mesurent tous deux le même concept, mais ne sont pas égaux.
L’écart type est préféré parce qu’il est mathématiquement plus facile de travailler plus tard, lorsque les calculs deviennent plus compliqués.
la source
@itsols, je vais ajouter à la notion importante de Kasper
The mean deviation is rarely used
. Pourquoi l' écart type est-il généralement considéré comme une meilleure mesure de la variabilité que l'écart absolu moyen? Parce que la moyenne arithmétique est le lieu de la somme minimale des déviations au carré (et non de la somme des absolus).Supposons que vous souhaitiez évaluer le degré d'altruisme. Dans ce cas, vous ne demanderez probablement pas à une personne combien elle est prête à donner de l'argent dans une "situation générale" de la vie. Au lieu de cela, vous choisirez de demander combien il est prêt à le faire dans la situation confinée, où il dispose de ressources minimales pour sa propre vie. C'est-à-dire quelle est la quantité d'altruisme individuel dans la situation lorsque cette quantité est minimale?
De même, quel est le degré de variabilité de ces données? Intuitivement, le meilleur indice de mesure est celui qui est minimisé (ou maximisé) jusqu'à la limite dans ce contexte. Le contexte est "autour de la moyenne arithmétique". Puis st. la déviation est le meilleur choix en ce sens. Si le contexte était "autour de la médiane" alors moyenne | déviation | serait le meilleur choix, car la médiane est le lieu de la somme minimale des déviations absolues.
la source
Une chose à noter est que la raison la plus probable pour laquelle votre manuel, vieux de 30 ans, a utilisé l'écart moyen absolu par opposition à l'écart type est qu'il est plus facile de calculer à la main (pas de racines carrées / carrées). Maintenant que les calculatrices sont facilement accessibles aux élèves du secondaire, il n’ya aucune raison de ne pas leur demander de calculer l’écart type.
Il existe encore des situations dans lesquelles des écarts absolus sont utilisés à la place des écarts types lors de l'ajustement de modèles complexes. Les écarts absolus sont moins sensibles aux valeurs extrêmes extrêmes (valeurs éloignées de la moyenne / ligne de tendance) par rapport aux écarts types car ils ne compensent pas cette distance avant de l'ajouter aux valeurs des autres points de données. Puisque les méthodes d’ajustement de modèles visent à réduire l’écart total par rapport à la ligne de tendance (en fonction de l’écart de calcul utilisé), les méthodes utilisant l’écart type peuvent aboutir à la création d’une ligne de tendance qui s'écarte de la majorité des points pour se rapprocher des valeurs aberrantes. . L’utilisation d’écarts absolus réduit cette distorsion, mais au prix de compliquer le calcul de la ligne de tendance.
En effet, comme d’autres l’ont noté, l’écart-type présente des propriétés et des relations mathématiques qui le rendent généralement plus utile en statistique. Mais "utile" ne doit jamais être confondu avec parfait.
la source
Les deux mesurent la dispersion de vos données en calculant la distance des données à leur moyenne.
La différence entre les deux normes est que l’ écart type calcule le carré de la différence alors que l’ écart absolu moyen ne regarde que la différence absolue. Par conséquent, les valeurs aberrantes importantes créeront une dispersion plus élevée lorsque l’écart type sera utilisé à la place de l’autre méthode. La distance euclidienne est en effet aussi plus souvent utilisée. La raison principale est que l' écart typeavoir de belles propriétés lorsque les données sont normalement distribuées. Donc, dans cette hypothèse, il est recommandé de l'utiliser. Cependant, les gens font souvent cette hypothèse pour des données qui ne sont pas distribuées normalement, ce qui crée des problèmes. Si vos données ne sont pas distribuées normalement, vous pouvez toujours utiliser l'écart type, mais vous devez faire attention à l'interprétation des résultats.
Enfin, vous devez savoir que les deux mesures de dispersion sont des cas particuliers de la distance de Minkowski , pour p = 1 et p = 2. Vous pouvez augmenter p pour obtenir d’autres mesures de la dispersion de vos données.
la source
Ce sont des mesures similaires qui tentent de quantifier la même notion. En général, vous utilisez st. écart, car il a de bonnes propriétés, si vous faites une hypothèse sur la distribution sous-jacente.
D'autre part, la valeur absolue de la déviation moyenne pose certains problèmes d'un point de vue mathématique, car vous ne pouvez pas la différencier et vous ne pouvez pas l'analyser facilement. Quelques discussions ici .
la source
Non tu as tort. Je rigole. Cependant, il existe de nombreuses raisons valables pour lesquelles on voudrait calculer l'écart moyen plutôt que les écarts std formels. De cette manière, je suis d'accord avec le point de vue de mes frères ingénieurs. Certes, si je compile des statistiques pour les comparer à un ensemble de travaux existants qui expriment des conclusions qualitatives et quantitatives, je m'en tiendrai à std. Mais, par exemple, supposons que j'essaie de courir vitealgorithmes de détection d'anomalies sur des données binaires générées par une machine. Je ne suis pas après des comparaisons académiques comme objectif final. Mais je suis intéressé par l’inférence fondamentale sur la "diffusion" d’un flux particulier de données sur sa moyenne. Je suis également intéressé par le calcul itératif et aussi efficace que possible. Dans le matériel électronique numérique, nous jouons tout le temps à des trucs sales - nous distillons des multiplications et des divisions en décalages gauche et droit, respectivement, et pour "calculer" les valeurs absolues, nous lâchons simplement le bit de signe (et calculons le complément à deux si nécessaire , les deux transforme facilement). Mon choix est donc de le calculer de la manière la plus simple possible et d'appliquer des seuils linéaires à mes calculs pour une détection rapide des anomalies sur les fenêtres temporelles souhaitées.
la source
Les deux mesures diffèrent en effet. La première est souvent appelée déviation absolue moyenne (MAD) et la seconde, déviation standard (STD). Dans les applications intégrées avec une puissance de calcul extrêmement limitée et une mémoire de programme limitée, il peut être très souhaitable d'éviter les calculs de racine carrée.
D'après un rapide test approximatif, il semble que MAD = f * STD avec f compris entre 0,78 et 0,80 pour un ensemble d'échantillons aléatoires distribués gaussiens.
la source
Amar Sagoo a un très bon article expliquant ceci: [ http://blog.amarsagoo.info/2007/09/making-sense-of-standard-deviation.html]
Pour ajouter ma propre tentative de compréhension intuitive:
La déviation moyenne est une façon décente de demander à quel point un point "moyen" hypothétique se situe par rapport à la moyenne, mais cela ne fonctionne pas vraiment si vous demandez à quel point tous les points sont éloignés les uns des autres ou comment les données sont "réparties".
L'écart-type consiste à demander quelle est la distance entre tous les points. Par conséquent, il intègre davantage d'informations utiles que l'écart-type (c'est pourquoi l'écart-type n'est généralement utilisé que comme un tremplin vers la compréhension de l'écart-type).
Une bonne analogie est le théorème de Pythagore. Le théorème de Pythagore nous dit la distance entre des points en deux dimensions en prenant la distance horizontale et la distance verticale, en les plaçant au carré, en ajoutant les carrés et en prenant la racine carrée du total.
Si vous l'examinez attentivement, la formule de l'écart type (population) est fondamentalement la même que celle du théorème de Pythagore, mais avec beaucoup plus que deux dimensions (et en utilisant la distance de chaque point à la moyenne comme distance dans chaque dimension). En tant que tel, il donne l'image la plus précise de la "distance" entre tous les points de votre ensemble de données.
Pour pousser cette analogie un peu plus loin, l’écart absolu moyen équivaudrait à prendre la moyenne des distances horizontale et verticale, qui est plus courte que la distance totale, tandis que l’écart absolu total additionnerait les distances horizontale et verticale, qui sont plus longues. que la distance réelle.
la source
L'écart-type représente la dispersion due à des processus aléatoires. Spécifiquement, de nombreuses mesures physiques qui devraient être dues à la somme de nombreux processus indépendants ont des distributions normales (courbe de Bell).
En d’autres termes, l’écart type est un terme qui résulte de la somme de variables aléatoires indépendantes. Donc, je ne suis pas d’accord avec certaines des réponses données ici: l’écart-type n’est pas seulement une alternative à l’écart moyen qui "se révèle plus pratique pour des calculs ultérieurs". L'écart-type est le bon moyen de modéliser la dispersion pour des phénomènes normalement distribués.
Si vous regardez l'équation, vous pouvez voir que l'écart type pèse plus lourdement que les écarts les plus importants par rapport à la moyenne. Intuitivement, vous pouvez penser à la déviation moyenne comme à la mesure de la déviation moyenne réelle par rapport à la moyenne, tandis que la déviation standard représente une distribution en forme de cloche appelée "normale" autour de la moyenne. Ainsi, si vos données sont distribuées normalement, l’écart type vous indique que si vous échantillonnez plus de valeurs, environ 68% d’entre elles se trouveront dans un écart type autour de la moyenne.
D'autre part, si vous avez une seule variable aléatoire, la distribution peut ressembler à un rectangle, avec une probabilité égale que des valeurs apparaissent n'importe où dans une plage. Dans ce cas, l'écart moyen pourrait être plus approprié.
TL; DR si vous avez des données dues à de nombreux processus aléatoires sous-jacents ou que vous savez simplement être distribuées normalement, utilisez la fonction d'écart type.
la source