Différence entre l'erreur type et l'écart type

96

J'ai du mal à comprendre la différence entre l'erreur type et l'écart type. En quoi sont-elles différentes et pourquoi avez-vous besoin de mesurer l'erreur type?

louis xie
la source
7
Un commentaire rapide, pas une réponse puisque deux utiles sont déjà présents: l’écart-type est une propriété de la (distribution de) variable (s) aléatoire (s). L'erreur type est plutôt liée à une mesure sur un échantillon spécifique. Les deux peuvent être confus lorsque la distinction entre l’univers et votre échantillon est floue.
Francesco
Éventuellement d'intérêt: stats.stackexchange.com/questions/15505/…
Macro

Réponses:

31

σ/nσ

Michael Chernick
la source
3
Re: "... cohérent, ce qui signifie que l'erreur type diminue à 0" - ce n'est pas vrai. Vous souvenez-vous de cette discussion: stats.stackexchange.com/questions/31036/… ?
Macro
1
Oui, bien sûr, je me souviens de la discussion sur les exceptions inhabituelles et j'y pensais lorsque j'ai répondu à la question. Mais la question portait sur les erreurs types et, en termes simples, les bonnes estimations de paramètres sont cohérentes et leurs erreurs types tendent à 0, comme dans le cas de la moyenne de l’échantillon.
Michael Chernick
4
Je suis d'accord avec votre commentaire - l'erreur-type de la moyenne de l'échantillon passe à 0 et la moyenne de l'échantillon est cohérente. Mais son erreur type qui va à zéro n’est pas une conséquence (ou l’équivalent) du fait qu’elle est cohérente, c’est ce que dit votre réponse.
Macro
3
@ Macro oui, la réponse pourrait être améliorée, ce que j'ai décidé de faire. Je pense qu'il est important de ne pas être trop technique avec les PO, car tout qualifier peut être compliqué et déroutant. Mais la précision technique ne doit pas être sacrifiée pour plus de simplicité. Je pense donc que la meilleure façon de procéder consiste à aborder le problème dans mon édition.
Michael Chernick
9
Je conviens qu'il est important de ne pas faire appel à une technique sauf si cela est absolument nécessaire. Mon seul commentaire est qu’une fois que vous avez déjà choisi d’introduire le concept de cohérence (un concept technique), il n’est pas utile de le caractériser de manière erronée pour faciliter la compréhension de la réponse. Je pense cependant que votre modification adresse mes commentaires.
Macro
51

Voici une réponse plus pratique (et non mathématique):

  • Le SD (écart-type) quantifie la dispersion - la différence entre les valeurs.
  • Le SEM (erreur type de la moyenne) quantifie avec précision la connaissance de la vraie moyenne de la population. Il prend en compte à la fois la valeur du SD et la taille de l'échantillon.
  • SD et SEM sont dans les mêmes unités - les unités de données.
  • Le SEM, par définition, est toujours plus petit que le SD.
  • Le SEM devient de plus en plus petit à mesure que vos échantillons grossissent. Cela a du sens, car la moyenne d’un grand échantillon sera probablement plus proche de la moyenne de la population réelle que celle d’un petit échantillon. Avec un échantillon énorme, vous connaîtrez la valeur de la moyenne avec beaucoup de précision, même si les données sont très dispersées.
  • Le DD ne change pas de manière prévisible à mesure que vous acquérez plus de données. Le SD que vous calculez à partir d'un échantillon est la meilleure estimation possible du SD de la population globale. Au fur et à mesure que vous collectez plus de données, vous évaluerez le DD de la population avec plus de précision. Mais vous ne pouvez pas prédire si le DS d'un plus grand échantillon sera plus grand ou plus petit que le SD d'un petit échantillon. (Ceci est une simplification, pas tout à fait vrai. Voir les commentaires ci-dessous.)

Notez que les erreurs standard peuvent être calculées pour presque tous les paramètres calculés à partir de données, pas seulement la moyenne. La phrase "l'erreur type" est un peu ambiguë. Les points ci-dessus ne concernent que l’erreur type de la moyenne.

(Extrait du Guide de statistiques GraphPad que j'ai écrit.)

Harvey Motulsky
la source
11
n100n.18n=2
4
@ Whuber: Bien sûr, vous avez raison. C'est la variance (SD au carré) qui ne changera pas de manière prévisible à mesure que vous ajoutez plus de données. Le SD deviendra un peu plus grand à mesure que la taille de l'échantillon augmente, en particulier lorsque vous commencez avec de petits échantillons. Ce changement est minime comparé au changement dans le SEM lorsque la taille de l'échantillon change.
Harvey Motulsky
@HarveyMotulsky: Pourquoi la SD augmente-t-elle?
Andrew
Avec de grands échantillons, la variance de l'échantillon sera assez proche de la variance de la population, de sorte que l'écart-type de l'échantillon sera proche de celui de la population. Avec des échantillons plus petits, la variance de l'échantillon sera égale à la variance de la population en moyenne, mais les écarts seront plus importants. Si elles sont symétriques comme variances, elles seront asymétriques comme SD. Exemple: La variance de la population est égale à 100. Les variances de l'échantillon sont 80 ou 120 (symétriques). L'échantillon SD doit être 10, mais sera 8,94 ou 10,95. Échantillon moyen d'écart-type provenant d'une distribution symétrique autour de la variance de la population, et l'écart-type moyen sera faible, avec un faible N.
Harvey Motulsky
43

θx={x1,,xn}θθ^(x)θ^(x)xx~θ^(x~)θ^(x)θ^θ^(x)θ^

ocram
la source
1
L'erreur standard d'estimation est-elle égale à l'écart type de la variable estimée?
Yurii
6

(Notez que je me concentre sur l'erreur type de la moyenne, ce que le questionneur, je crois, l'était également, mais vous pouvez générer une erreur type pour toute statistique de l'échantillon.)

L'erreur type est liée à l'écart type, mais il ne s'agit pas de la même chose et l'augmentation de la taille de l'échantillon ne les rapproche pas. Au contraire, cela les rend plus éloignés. L'écart type de l'échantillon se rapproche de l'écart type de la population lorsque la taille de l'échantillon augmente, mais pas l'erreur type.

Parfois, la terminologie autour de ceci est un peu lourde à comprendre.

Lorsque vous collectez un échantillon et que vous calculez l'écart type de cet échantillon, l'estimation de l'écart type devient de plus en plus précise à mesure que la taille de l'échantillon augmente. D'après votre question, il semble que vous ayez pensé à cela. Mais considérons également que la moyenne de l'échantillon tend à être plus proche de la moyenne de la population. C'est essentiel pour comprendre l'erreur type.

L'erreur standard concerne ce qui se produirait si vous obteniez plusieurs échantillons d'une taille donnée. Si vous prenez un échantillon de 10, vous pouvez obtenir une estimation de la moyenne. Ensuite, vous prenez un autre échantillon de 10 et une nouvelle estimation moyenne, et ainsi de suite. L’écart type de la moyenne de ces échantillons est l’erreur type. Étant donné que vous avez posé votre question, vous pouvez probablement voir maintenant que si le N est élevé, l’erreur type est plus petite, car la moyenne des échantillons sera moins susceptible de s'écarter beaucoup de la valeur réelle.

Cela semble quelque peu miraculeux à certains, étant donné que vous avez calculé cela à partir d'un échantillon. Vous pouvez donc amorcer une erreur standard à l'aide d'une simulation pour illustrer la relation. En R cela ressemblerait à:

# the size of a sample
n <- 10
# set true mean and standard deviation values
m <- 50
s <- 100

# now generate lots and lots of samples with mean m and standard deviation s
# and get the means of those samples. Save them in y.
y <- replicate( 10000, mean( rnorm(n, m, s) ) )
# standard deviation of those means
sd(y)
# calcuation of theoretical standard error
s / sqrt(n)

Vous constaterez que ces deux dernières commandes génèrent le même nombre (environ). Vous pouvez faire varier les valeurs n, m et s et elles apparaîtront toujours assez proches les unes des autres.

John
la source
J'ai trouvé cela vraiment utile, merci de poster. Serait-il alors juste de décrire l'erreur type comme "l'écart type de la distribution d'échantillonnage"? La distribution d'échantillonnage étant y dans votre bloc de code ci-dessus? C'est ce qui m'a confondu, confondant les paramètres d'échantillon sd et mean avec les paramètres de distribution d'échantillonnage.
Doug Fir
1
Si vous modifiez votre formulation pour spécifier des moyennes d'échantillon pour ce cas, oui.
Jean