Méthode générale pour dériver l'erreur standard

11

Je n'arrive pas à trouver une méthode générale pour dériver des erreurs standard n'importe où. J'ai regardé sur Google, ce site Web et même dans des manuels, mais tout ce que je peux trouver, c'est la formule des erreurs standard pour la moyenne, la variance, la proportion, le rapport de risque, etc ... et non pas comment ces formules ont été établies.

Si un organisme pouvait l'expliquer en termes simples ou même me lier à une bonne ressource qui l'explique, je lui en serais reconnaissant.

Daniel Gardiner
la source
2
Je fournis un modèle simple général et l'applique, avec tous les détails élaborés , dans la publication à stats.stackexchange.com/a/18609/919 . Ceci et bien d'autres messages sur les erreurs standard (près d'un millier à ce jour) peuvent être trouvés en recherchant sur notre site "erreur standard"
whuber

Réponses:

22

Ce que vous voulez trouver, c'est l'écart-type de la distribution d'échantillonnage de la moyenne. C'est-à-dire, dans un langage simple, la distribution d'échantillonnage est lorsque vous choisissez éléments de votre population, les additionnez et divisez la somme par . Nous trouvons ensuite la variance de cette quantité et obtenons l'écart type en prenant la racine carrée de sa variance.nnn

Donc, que les éléments que vous choisissez soient représentés par les variables aléatoires , chacune étant identiquement distribuée avec la variance . Ils sont échantillonnés indépendamment, donc la variance de la somme n'est que la somme des variances. σ 2 Var ( n i = 1 X i ) = n i = 1 Var ( X i ) = n i = 1 σ 2 = n σ 2Xi,1inσ2

Var(i=1nXi)=i=1nVar(Xi)=i=1nσ2=nσ2

Ensuite, nous divisons par . Nous savons en général que , donc en mettant nous avonsVar ( k Y ) = k 2 Var ( Y ) k = 1 / nnVar(kY)=k2Var(Y)k=1/n

Var(i=1nXin)=1n2Var(i=1nXi)=1n2nσ2=σ2n

Enfin, prenez la racine carrée pour obtenir l'écart type . Lorsque l'écart-type de population n'est pas disponible, l'écart-type d'échantillon est utilisé comme estimation, donnant . ssσnssn

Tout ce qui précède est vrai quelle que soit la distribution des , mais cela soulève la question de ce que vous voulez réellement faire avec l'erreur standard? En règle générale, vous souhaiterez peut-être construire des intervalles de confiance, et il est ensuite important d'attribuer une probabilité à la construction d'un intervalle de confiance qui contient la moyenne.Xi

Si vos sont normalement distribués, c'est facile, car alors la distribution d'échantillonnage est également normalement distribuée. Vous pouvez dire que 68% des échantillons de la moyenne se situeront à moins d'une erreur standard de la vraie moyenne, 95% seront à moins de 2 erreurs standard, etc.Xi

Si vous avez un échantillon suffisamment grand (ou un échantillon plus petit et que les ne sont pas trop anormaux), vous pouvez invoquer le théorème de la limite centrale et dire que la distribution d'échantillonnage est distribuée approximativement normalement, et vos énoncés de probabilité sont également approximatifs.Xi

Un exemple typique est l'estimation d'une proportion , où vous tirez éléments chacun d'une distribution de Bernouilli. La variance de chaque distribution est et donc l'erreur standard est (la proportion est estimée à l'aide des données). Pour ensuite dire qu'environ quelque% des échantillons se situent à l'intérieur de tant d'écarts-types de la moyenne, vous devez comprendre quand la distribution d'échantillonnage est approximativement normale. L'échantillonnage répété à partir d'une distribution de Bernouilli est identique à l'échantillonnage à partir d'une distribution binomiale, et une règle de base courante consiste à se rapprocher uniquement lorsque et sontn X i p ( 1 - p ) pnXip(1p) pnpn(1-p)5p(1p)/npnpn(1p)5. (Voir wikipedia pour une discussion plus approfondie sur l'approximation du binôme avec la normale. Voir ici pour un exemple pratique d'erreurs standard avec une proportion.)

Si, d'autre part, votre distribution d'échantillonnage ne peut pas être approximée par une distribution normale, alors l'erreur standard est beaucoup moins utile. Par exemple, avec une distribution asymétrique très asymétrique, vous ne pouvez pas dire que le même% d'échantillons serait un écart type chaque côté de la moyenne, et vous voudrez peut-être trouver une manière différente d'associer les probabilités aux échantillons.±1

TooTone
la source
Merci, cette approche est logique et je peux voir comment elle s'applique à la moyenne, mais je ne vois pas comment l'étendre à d'autres statistiques. Par exemple, comment trouver l'erreur-type d'un taux? ou un rapport de taux?
Daniel Gardiner
J'ai mis à jour mon message. Le point clé est que des quantités comme la moyenne, la variance, etc. - et donc stderr - peuvent être trouvées pour n'importe quelle distribution. Mais pour faire des énoncés de probabilité, vous devez savoir quelque chose sur la distribution, qu'elle soit normale, binomiale ou autre. Le stderr peut donc toujours être trouvé, mais son utilité dépend de la situation.
TooTone
var(Xi)=σ2s2
1
XiXis2s2Xis2
TooTone
4

L'erreur standard est l'écart type de la statistique (sous l'hypothèse nulle, si vous testez). Une méthode générale pour trouver l'erreur standard serait de trouver d'abord la fonction de distribution ou de génération de moment de votre statistique, de trouver le deuxième moment central et de prendre la racine carrée.

μσ2X¯=1ni=1nXiμσ2/n

  1. La somme des variables aléatoires indépendantes est normale,
  2. E[i=1naiXi]=i=1naiE[Xi]
  3. X1X2Var(a1X1+a2X2)=a12Var(X1)+a22Var(X2)

σ/n

Il y a des raccourcis, comme vous n'avez pas nécessairement besoin de trouver la distribution de la statistique, mais je pense que conceptuellement, il est utile d'avoir les distributions à l'esprit si vous les connaissez.

P Schnell
la source