Pourquoi l'erreur-type d'une proportion, pour un n donné, est-elle la plus grande pour 0,5?

10

L'erreur standard d'une proportion sera la plus grande qu'elle puisse être pour un N donné lorsque la proportion en question est de 0,5, et elle diminue plus la proportion est de 0,5. Je peux voir pourquoi il en est ainsi lorsque je regarde l'équation de l'erreur-type d'une proportion, mais je ne peux pas l'expliquer davantage.

Y a-t-il une explication au-delà des propriétés mathématiques de la formule? Si oui, pourquoi y a-t-il moins d'incertitude autour des proportions estimées (pour un N donné) alors qu'elles se rapprochent de 0 ou 1?

edstatsuser
la source

Réponses:

8

Contexte et terminologie

Pour être parfaitement clair sur ce dont nous discutons, établissons quelques concepts et terminologie. Un joli modèle pour les proportions est l'urne binaire: elle contient des boules de couleur argent ("succès") ou fuchsia ("échec"). La proportion de boules d'argent dans l'urne est (mais ce n'est pas la "proportion" dont nous parlerons). p

Cette urne permet de modéliser un essai Bernoulli . Pour obtenir une réalisation, bien mélanger les boules et en tirer une aveuglément, en observant sa couleur. Pour obtenir des réalisations supplémentaires, reconstituez d'abord la boîte en renvoyant la balle tirée, puis répétez la procédure un nombre prédéterminé de fois. La séquence de réalisations peut être résumée par le décompte de ses succès,n . Il s'agit d'une variable aléatoire dont les propriétés sont entièrement déterminées par n et p . La distribution de X est appeléedistributionbinomiale ( n , p ) . Laproportion(expérimentale ou "échantillon")XnpX(n,p)est le rapport .X/n

Figure

Ces chiffres sont des diagrammes à barres des distributions de probabilité pour diverses proportions binomiales . Le plus remarquable est un modèle cohérent, indépendamment de , dans lequel les distributions deviennent plus étroites (et les barres en conséquence plus hautes) lorsque se déplace de vers le bas.X/nnp1/2

L'écart type de est l' erreur type de proportion mentionnée dans la question. Pour tout donné , cette quantité ne peut dépendre que de . Appelons-le . En changeant les rôles des boules - appelez les échecs "argent" et les "succès" fuchsia - il est facile de voir que . Ainsi, la situation où - c'est-à-dire doit être spéciale. La question concerne la manière dont varie lorsque s'éloigne de vers une valeur plus extrême, telle queX/nnpse(p)se(p)=se(1p)p=1pp=1/2se(p)p1/20.

Connaissance vs compréhension

Parce que tout le monde a été montré des chiffres comme ceux-ci au début de leur éducation, tout le monde "connaît" les largeurs des parcelles - qui sont mesurées par doit diminuer lorsque s'éloigne de . Mais cette connaissance n'est vraiment qu'une expérience, alors que la question cherche une compréhension plus profonde. Une telle compréhension est disponible à partir d'une analyse minutieuse des distributions binomiales, comme Abraham de Moivre entreprise il y a environ 300 ans. (Ils ressemblaient dans l'esprit à ceux que j'ai présentés dans une discussion sur le théorème de la limite centrale .) Je pense, cependant, que quelques considérations relativement simples pourraient suffire pour faire valoir que les largeurs doivent être les plus larges près de .se(p)p1/2p=1/2

Une analyse intuitive simple

Il est clair que nous devrions nous attendre à ce que la proportion de succès dans l'expérience soit proche de . L'erreur type concerne à quelle distance de cette attente nous pouvons raisonnablement supposer que le résultat réel X / n se situera. Supposant, sans perte de généralité, que p est compris entre 0 et 1 / 2 , que faudrait - il pour augmenter X / n de p ? Typiquement, environ p n des boules tirées dans une expérience étaient en argent et (donc) autour de ( 1 - p ) npX/np01/2X/nppn(1p)nétaient fuchsia. Pour obtenir plus de boules d'argent, certains de ces résultats fuchsia devaient différer. Quelle est la probabilité que le hasard puisse fonctionner de cette manière? La réponse évidente est que lorsque p est petit, il n'est jamais très probable que nous allons tirer une boule d'argent. Ainsi, nos chances de tirer des boules d'argent au lieu de celles fuchsia sont toujours faibles. On peut raisonnablement espérer que par pure chance, une proportion p des résultats fuchsia aurait pu différer, mais il semble peu probable que beaucoup plus que cela ait changé. Ainsi, il est plausible que X ne varie pas beaucoup plus que p × ( 1 - p ) n . De manière équivalente,pnppXp×(1p)n ne varierait pas beaucoup plus que p ( 1 - p ) n / n = p ( 1 - p ) .X/np(1p)n/n=p(1p)

Le dénouement

p(1p)p=1/2p=0p=1

p(1p)Xp(1p)nXpn p(1p)nnX/np(1p)n/n=p(1p)n,X/n

whuber
la source
3

Considérons la fonction p (1-p) pour 0 <= p <= 1. En utilisant le calcul, vous pouvez voir qu'à p = 1/2, c'est 1/4 qui est la valeur maximale. Si vous pouvez voir que c'est pour le binôme lié à l'écart type de l'estimation de la proportion qui est sqrt (p (1-p) / n) alors p = 1/2 est le maximum. Lorsque p = 1 ou 0, l'erreur standard est 0 car vous obtiendrez toujours tous les 1 ou tous les 0 respectivement. Donc, lorsque vous vous rapprochez de 0 ou 1, un argument de continuité dit que l'erreur standard approche 0 lorsque p approche 0 ou 1. En fait, elle diminue de façon monotone lorsque p approche 0 ou 1. Pour un grand n, la proportion estimée devrait être proche de la valeur réelle proportion.

Michael R. Chernick
la source
3
p(1p)p=1/2
1
@whuber J'ai répondu comme je l'ai fait parce que je vois que la formule est fondamentale pour comprendre pourquoi la variance est la plus grande à p = 1/2 et très petite lorsque p est proche de 0 ou 1. Peut-être est-il préférable de dire qu'il y a n'est pas une explication complètement vide de la formule.
Michael R. Chernick
1

n

Le rapport devant être compris entre 0 et 1, l'incertitude sera limitée par ces bornes. À moins que le rapport moyen ne soit exactement au milieu, l'une de ces limites sera plus limitative que l'autre.

pmin[p,1p]

GeoMatt22
la source
Oui - mais l'autre limite sera moins limitative! Pourquoi les deux effets ne s'annulent-ils pas?
whuber
nmin[p,1p]