La variance de la proportion d'échantillon diminue avec n mais d'un dénombrement augmente avec n - pourquoi?

9

J'ai un bloc intuitif avec ça. Pour un problème binomial, l'écart type d'un nombre est . Inversement, l'écart type de la proportion d'échantillon diminue avec l'augmentation de et est . Je peux faire la division par mais je ne comprends pas pourquoi les écarts-types se déplacent dans des directions opposées.np(1p)np(1p)nn

user39707
la source
1
Deux choses: (a) proportion = .count et (b) . Clairement ici, et . 1nsd(cX)=c.sd(X)c=1n1nn=1n
Glen_b -Reinstate Monica
1
Oui, c'est le problème - je peux voir les maths et faire la division par n mais c'est l'aspect intuitif qui est bizarre. Si on me demandait comment obtenir une estimation plus précise d'un paramètre, je dirais que l'on prend un échantillon plus grand. Cela me donne une meilleure estimation de la proportion (OK) mais un écart plus large pour les dénombrements et plus j'ajoute de dénombrements, plus la conclusion que je peux tirer est faible.
user39707
Lorsque vous travaillez avec des chiffres, pour quelle quantité de population calculez-vous un écart / intervalle standard?
Glen_b -Reinstate Monica
Un exemple (étude du cœur d'Helsinki) d'un livre (Moore & Mccabe) est l'endroit où je me décolle. Probabilité (crise cardiaque) = 0,04 & n = 2000. SD pour le nombre attendu de crises cardiaques équivaut à 8,76. Bien. Il y a eu 84 crises cardiaques dans le groupe placebo et 56 dans le groupe traité. Z = 3,19 et peu probable par hasard. S'il y en avait 10 000 dans l'essai, l'écart-type (dénombrements) serait ~ 20 et la différence dans 2 groupes ne serait plus significative. Mais comment plus de données peuvent-elles me réduire la discrimination?
user39707
1
Les deux groupes sont-ils de taille égale? Le nombre de crises cardiaques reste-t-il le même lorsque l'échantillon augmente.?
Dimitriy V. Masterov, le

Réponses:

7

En gros, imaginez que nous lançons une bonne pièce. Le succès est défini comme des têtes. Si nous lançons la pièce une fois , vous compterez soit succès soit succès. Les deux ont une probabilité positive égale de se produire . Imaginez maintenant que nous lançons la pièce fois ( ). Maintenant, vous pouvez toujours obtenir et succès (bien que les deux soient moins probables), mais vous pouvez également obtenir à (qui sont plus probables). Si la variance mesure dans quelle mesure un ensemble de nombres est étalé, vous pouvez voir avec lancers que l'écart est plus large qu'avec(n=1)10(1/2)10n=1001210101lancer ou essai. Cela explique pourquoi la variance du nombre de succès augmente avec .n

Avec la proportion (nombre de succès divisé par le nombre de lancers), vous essayez d'approximer la vraie valeur de . Au fur et à mesure que vous obtenez plus d'informations avec plus d'essais, votre incertitude sur diminue et la variance diminue. Avec un tirage au sort, vous ne savez pas grand-chose (seulement ce . Avec lancers qui se révèlent tous être des têtes, vous êtes presque sûr que est proche d'un. ppp0)10p

Dimitriy V. Masterov
la source
Je suis retourné au manuel et on dirait que je ne le comprends toujours pas, j'ai peur. Le commentaire que j'ai fait ci-dessus à propos de l'étude d'Helsinki Heart résume où cela me semble un peu paradoxal en ce moment
user39707
2

Commençons par supposer que l'écart-type de la distribution binomiale est correct (il l'est). Il s'agit de l'écart-type de la distribution du nombre de succès surn essais à probabilité constante de succès p. Appelez le nombre de succès,X.

Donc Var(X)=np(1p), c'est ce que vous avez (écart-type au carré).

Puisqu'une proportion est le nombre de succès sur le nombre d'essais, nous avons:

Var(Xn)=Var(X)n2=np(1p)n2=p(1p)n.

Et donc l'écart-type est bien sûr p(1p)n.

Dans un cas, vous regardez les nombres, dans l'autre vous regardez les nombres divisés par la taille de l'échantillon.

Intuitivement, vous pouvez imaginer que le nombre de succès est beaucoup plus élevé (X=0,1,2,,n) qu'une proportion (0p1). Commen augmente, X peut prendre de nombreuses valeurs entières différentes (et plus grandes) et présente une plus grande variabilité; p, d'autre part, est limité entre 0 et 1. Donc X a plus de variabilité.

Underminer
la source
comment avez-vous Vuner(Xn)=Vuner(X)n2? Pourquoi le dénominateurn2?
user490895
Vuner(X)=E(X2)-[E(X)]2 donc Vuner(cX)=E(c2X2)-[cE(X)]2 =c2E(X2)-c2E(X)2 =c2(E(X2)-[E(X)]2) =c2Vuner(X). Ici,c=1/n. J'ai fait une faute de frappe dans la troisième égalité de la réponse que je vais corriger maintenant.
Underminer
0

D'accord! Je vais le rendre très facile.

Lorsque vous utilisez la norme et la variance HABITUELLEMENT, vous regardez en arrière, essayez de voir ce qui se passe, puis projetez l'avenir. en regardant en arrière, plus les essais permettent généralement d'obtenir PLUS d'informations. De plus en plus de procès aident à préciser ce qui s'est passé. et vous tournez maintenant mieux autour de la moyenne. Std et var tournent simplement autour de la moyenne pour vous rapprocher de plus en plus de ce qui va se passer.

Binomial est différent! nous savons déjà ce qui se passe, nous connaissons la probabilité. donc regarder en arrière n'est pas aussi utile parce que, bien, nous connaissons déjà la probabilité. De plus en plus d'essais ne nous aident pas à mieux comprendre comment les choses tournent autour de la moyenne, cela nous donne juste une distribution de plus en plus large. l'augmentation des essais ne donne vraiment plus de place à la variance.

Imaginez deux scénarios: celui que vous voulez connaître la taille de chacun dans une pièce. plus de mesures = plus proche de la hauteur moyenne réelle dans la pièce, vous êtes reconnaissant pour chaque nouvelle mesure.

deuxièmement, vous avez une pièce. vous savez déjà quelle est la moyenne. son 50/50 je veux dire à ce stade, vous avez terminé. permet donc de faire comme si vous commenciez à retourner, et bien chaque nouveau flip n'est que plus de marge d'erreur. vous retournez 10 fois et vous obtenez les 10 têtes, vous dites à votre ami, que diable! où étaient les chances de cela, c'est tellement stupide! Eh bien, si vous ne le retourniez qu'une fois, vous n'auriez eu qu'une seule chance pour des valeurs aberrantes. plus de flips ne vous donnent pas vraiment plus d'informations, ils donnent juste plus de place pour des résultats fous.

0 math et 0 formules, j'espère que ça aide.

rivières zack
la source
0

Si vous cherchez une intuition sur ce résultat, demandez-vous laquelle des choses suivantes est plus variable:

  • ... la proportion de femmes dans un ménage ou la proportion de femmes dans tout un pays?

  • ... le nombre de femmes dans un ménage ou le nombre de femmes dans tout un pays?

Ben - Réintègre Monica
la source