Qu'est-ce qu'un écart type?

31

Qu'est-ce qu'un écart-type, comment est-il calculé et quelle est son utilisation en statistique?

Oren Hizkiya
la source
7
Je ne pense pas que le but de ce site est de répondre aux questions des élèves de 6e. Et mon enfant, face à une telle question, recherchait la réponse sur Google. S'il y a une partie spécifique de la définition que vous ne comprenez pas, demandez de suite. Mais une question aussi floue sur un sujet aussi fondamental indique (pour moi en tout cas) que l'affiche n'a même pas essayé de trouver une réponse. Que va-t-il se passer ensuite "Qu'est-ce qu'un nombre et comment sont-ils utilisés?"
PeterR
9
Je pense que cette question est ok. En fait, c'était l'exemple le plus voté sur la question du sujet sur la zone 51. Les bases sont ok ici!
Peter Smit
6
D'accord, c'est une question valable. Il est également bien indiqué car il demande par exemple l'utilisation et le calcul. Le but du site est sûrement de créer un référentiel pour TOUTES les questions statistiques.
Joel
5
Je suis d'accord avec Joel. L'écart type est un concept important en statistique. Ne serait-il pas absurde de ne pas pouvoir poser de question à ce sujet sur un site de questions statistiques?
Parbury
4
En tant que professeur de lycée dans une vie antérieure, je dirai qu'il n'y a pas de questions stupides. Le moment où vous étiquetez une question comme indigne, ce moment où vous enlevez la façon la plus efficace d'apprendre, c'est de poser des questions! (Je vais répondre à cette question ci-dessous.)
Adhesh Josh

Réponses:

30

L'écart type est un nombre qui représente la «dispersion» ou la «dispersion» d'un ensemble de données. Il existe d'autres mesures de propagation, comme la portée et la variance.

Voici quelques exemples d'ensembles de données et leurs écarts-types:

[1,1,1]     standard deviation = 0   (there's no spread)  
[-1,1,3]    standard deviation = 1.6 (some spread) 
[-99,1,101] standard deviation = 82  (big spead)

Les ensembles de données ci-dessus ont la même moyenne.

La déviation signifie "distance de la moyenne".

"Standard" signifie ici "standardisé", ce qui signifie que l'écart-type et la moyenne sont dans les mêmes unités, contrairement à la variance.

Par exemple, si la hauteur moyenne est de 2 mètres , l'écart type pourrait être de 0,3 mètre , tandis que la variance serait de 0,09 mètre carré .

Il est pratique de savoir qu'au moins 75% des points de données se situent toujours à moins de 2 écarts-types de la moyenne (ou environ 95% si la distribution est normale).

Par exemple, si la moyenne est de 100 et que l'écart-type est de 15, alors au moins 75% des valeurs se situent entre 70 et 130.

Si la distribution se trouve être normale, 95% des valeurs se situent entre 70 et 130.

De manière générale, les résultats des tests de QI sont normalement distribués et ont une moyenne de 100. Une personne «très brillante» a deux écarts-types au-dessus de la moyenne, ce qui signifie un score de test de QI de 130.

Neil McGuigan
la source
Neil, merci pour votre réponse, pourriez-vous s'il vous plaît expliquer plus en détail la partie "standard" dans le terme "écart type". Si cela est approprié, pourriez-vous s'il vous plaît toucher le même terme "standard" dans "erreur standard de moyenne". Merci d'avance.
stan
Concernant vos modifications récentes: dans quel sens la SD est-elle "standardisée"? Habituellement, il devient la base de la normalisation, mais n'est pas lui-même normalisé (comme le redimensionner par une estimation de sa variation d'échantillonnage).
whuber
Il est normalisé pour être dans la même unité que la moyenne
Neil McGuigan
L'exemple avec une hauteur moyenne de 2 mètres est un bon exemple de la nécessité de prendre soin de l'utilisation des décimales. Le même exemple pourrait être fait en centimètres où un écart type de 30 centimètres dériverait logiquement d'une variance de 900 centimètres.
Robert Jones
J'ai l'impression qu'ils devraient être évités dans les unités de mesure primaires. Considérez les résultats, par exemple, d'un écart-type de 0,133 mètre converti en décimètres, centimètres et millimètres. Quelqu'un voudrait-il élucider, s'il vous plaît?
Robert Jones
9

Une citation de Wikipedia .

Il montre combien il y a de variation par rapport à la "moyenne" (moyenne ou valeur attendue / budgétée). Un écart-type faible indique que les points de données ont tendance à être très proches de la moyenne, tandis qu'un écart-type élevé indique que les données sont réparties sur une large plage de valeurs.

c4il
la source
5

Lorsque nous décrivons une variable, nous la résumons généralement à l'aide de deux mesures: une mesure du centre et une mesure de l'écart. Les mesures courantes du centre incluent la moyenne, la médiane et le mode. La mesure courante de la propagation comprend la variance et la plage interquartile.

La variance (représentée par le sigma grec en minuscules élevé à la puissance deux) est couramment utilisée lorsque la moyenne est indiquée. La variance est l'écart quadratique moyen de la variable. L'écart est calculé en soustrayant la moyenne de chaque observation. Ceci est mis au carré car la somme serait autrement nulle et la mise au carré élimine ce problème tout en conservant la taille relative des écarts. Le problème avec l'utilisation de la variation comme mesure de l'écart est qu'elle est exprimée en unités carrées. Par exemple, si notre variable d'intérêt était la hauteur mesurée en pouces, la variance serait rapportée en pouces carrés, ce qui n'a guère de sens. L'écart type (représenté par le sigma grec en minuscules) est la racine carrée de la variance et renvoie la mesure de l'écart aux unités d'origine.

Lors de l'utilisation de l'écart-type, il faut faire attention aux valeurs aberrantes car elles biaiseront l'écart-type (et la moyenne) car elles ne sont pas des mesures résistantes de propagation. Un exemple simple illustrera cette propriété. La moyenne de mes terribles scores au bâton de cricket de 13, 14, 16, 23, 26, 28, 33, 39 et 61 est 28,11. Si nous considérons que 61 est une valeur aberrante et que nous l'avons supprimé, la moyenne serait de 24.

Graham Cookson
la source
1
σ2σ
2

Voici comment je répondrais à cette question en utilisant un diagramme.

Disons que nous pesons 30 chats et calculons le poids moyen. Ensuite, nous produisons un nuage de points, avec le poids sur l'axe y et l'identité du chat sur l'axe x. Le poids moyen peut être tracé sous forme de ligne horizontale. Nous pouvons ensuite tracer des lignes verticales qui relient chaque point de données à la ligne moyenne - ce sont les écarts de chaque point de données par rapport à la moyenne, et nous les appelons des résidus. Maintenant, ces résidus peuvent être utiles car ils peuvent nous dire quelque chose sur la propagation des données: s'il y a beaucoup de gros résidus, alors les chats varient beaucoup en masse. Inversement, si les résidus sont principalement faibles, les chats sont assez étroitement regroupés autour du poids moyen. Donc, si nous pouvions avoir une métrique qui nous indique la moyennela longueur d'un résidu dans cet ensemble de données, ce serait un moyen pratique de dénoter l'étendue de la propagation dans les données. L'écart type est, en fait, la longueur du résidu moyen.

Je poursuivrais dans la même veine en donnant le calcul de sd, en expliquant pourquoi nous établissons une racine carrée puis carrée (j'aime l'explication courte et douce de Vaibhav). Je mentionnerais ensuite les problèmes des valeurs aberrantes, comme le fait Graham dans son dernier paragraphe.

Freya Harrison
la source
1

Si l'information requise est la distribution de données sur la moyenne, l'écart-type est utile.

La somme de la différence de chaque valeur par rapport à la moyenne est nulle (évidemment, étant donné que la valeur est uniformément répartie autour de la moyenne), nous quadrillons donc chaque différence de manière à convertir les valeurs négatives en positives, à les additionner à l'ensemble de la population et à prendre leur racine carrée. Cette valeur est ensuite divisée par le nombre d'échantillons (ou la taille de la population). Cela donne l'écart type.

Vaibhav Garg
la source
". D'où nous quadrillons chaque différence ..." Nous pourrions aussi prendre la valeur absolue pour nous débarrasser des valeurs négatives. Alors pourquoi la quadrature est-elle une meilleure méthode puisque nous devons prendre une racine carrée à la fin? Pourquoi ne pas simplement additionner les valeurs absolues des écarts?
Dilip Sarwate
Vu celui-ci? lien
Vaibhav Garg
45
1
@DilipSarwate, avec tout le respect que je vous dois, la preuve par autorité ne m'impressionne pas. La supposition que "d'où" est "faisant autorité" est un "homme de paille" que je préfère ignorer. Le niveau de détail d'une déclaration donnée est proportionnel à son inclinaison et / ou à sa signification pédagogique dans un contexte donné. Je suppose qu'une personne qui demande "Qu'est-ce qu'un écart-type, comment est-ce ... ainsi de suite?" peut ne pas souhaiter être accablé par des définitions mathématiques rigoureuses de la même chose. La simplification est délibérée et, permettez-moi de vous l'assurer, elle n'est pas le résultat d'une méconnaissance.
Vaibhav Garg
1
Et qu'est-ce que, je vous en prie, dites "d'où nous cadrons ..." autre qu'une preuve d'autorité qui ne vous impressionne pas? Il n'y a aucune raison logique pour laquelle la quadrature est automatiquement la solution au problème comme l'indique votre "d'où".
Dilip Sarwate
1

J'aime à y penser comme suit: l'écart type est la distance moyenne à la moyenne . C'est plus conceptuellement utile que mathématiquement utile, mais c'est une belle façon de l'expliquer aux non-initiés.

Behacad
la source
0

Un écart type est la racine carrée du deuxième moment central d'une distribution. Un moment central est la différence attendue de la valeur attendue de la distribution. Un premier moment central serait généralement égal à 0, nous définissons donc un deuxième moment central comme la valeur attendue de la distance au carré d'une variable aléatoire par rapport à sa valeur attendue.

Pour le mettre sur une échelle plus conforme aux observations originales, nous prenons la racine carrée de ce deuxième moment central et nous l'appelons l'écart type.

L'écart type est une propriété d'une population. Il mesure la «dispersion» moyenne de cette population. Toutes les obsrvations sont-elles regroupées autour de la moyenne ou sont-elles largement réparties?

Pour estimer l'écart type d'une population, nous calculons souvent l'écart type d'un «échantillon» de cette population. Pour ce faire, vous prenez des observations de cette population, calculez une moyenne de ces observations, puis calculez la racine carrée de l'écart quadratique moyen par rapport à cette «moyenne de l'échantillon».

Pour obtenir un estimateur non biaisé de la variance, vous ne calculez pas réellement l'écart quadratique moyen à partir de la moyenne de l'échantillon, mais vous divisez plutôt par (N-1) où N est le nombre d'observations dans votre échantillon. Il est à noter que cet "écart-type de l'échantillon" n'est pas un estimateur sans biais de l'écart-type, mais le carré de "l'écart-type de l'échantillon" est un estimateur sans biais de la variance de la population.

Baltimark
la source
6
c'est une réponse incroyablement peu claire. Veuillez essayer d'écrire en anglais.
Neil McGuigan
1
Peut-être. est une personne qui pose cette question une personne qui est sortie de la rue, ou une personne qui a au moins ouvert un livre de statistiques. Dire à quelqu'un que l'écart-type n'est que la racine carrée de la variance soulève complètement la question.
Baltimark
-1

La meilleure façon dont j'ai compris l'écart-type est de penser à un coiffeur! (Vous devez collecter des données auprès d'un coiffeur et faire la moyenne de sa vitesse de coupe pour que cet exemple fonctionne.)

Il faut en moyenne 30 minutes au coiffeur pour couper les cheveux d'une personne.

Supposons que vous fassiez le calcul (la plupart des progiciels le feront pour vous) et que vous constatiez que l'écart type est de 5 minutes. Cela signifie ce qui suit:

  • la coiffeuse coupe les cheveux de 68% de ses clients en 25 minutes et 35 minutes
  • la coiffeuse coupe les cheveux de 96% de ses clients en 20 et 40 minutes

Comment le sais-je? Vous devez regarder la courbe normale, où 68% se situe dans 1 écart-type et 96% se situe dans 2 écarts-types de la moyenne (dans ce cas, 30 minutes). Vous ajoutez ou soustrayez donc l'écart-type de la moyenne.

Si la cohérence est souhaitée, comme dans ce cas, alors plus l'écart-type est petit, mieux c'est. Dans ce cas, le coiffeur passe un maximum d'environ 40 minutes avec un client donné. Vous devez couper les cheveux rapidement afin de gérer un salon avec succès!

Adhesh Josh
la source
Je ne pense pas que vous ayez relu votre réponse, Adhesh. Vous avez ici des informations contradictoires. Voyez si vous êtes d'accord avec mes modifications, d'accord?
rolando2
1
Vous n'avez décrit l'interprétation de l'écart-type que dans le cas de la distribution normale. La «règle de 68%» et (et la règle de 95%) s'appliquent uniquement aux données normalement distribuées. Indiquez au moins que les deux puces ne sont vraies que si les temps de coupe suivent une distribution normale.
Macro
Macro, j'ai mentionné la courbe normale et il est certain que si vous utilisez la courbe normale, les données suivraient une distribution normale.
Adhesh Josh
@ rolando2 Je ne semble pas comprendre ce qui ne va pas avec l'explication d'
Adhesh
@Amarald - avez-vous cliqué sur "31 janvier à 1:06" pour voir les versions avant et après l'édition? Je pense que la réponse est plus forte après, bien que Macro fasse également une remarque importante.
rolando2