Grande image:
J'essaie de comprendre comment l'augmentation de la taille de l'échantillon augmente la puissance d'une expérience. Les diapositives de mon conférencier expliquent cela avec une image de 2 distributions normales, une pour l'hypothèse nulle et une pour l'hypothèse alternative et un seuil de décision c entre elles. Ils font valoir que l’augmentation de la taille de l’échantillon réduira la variance et entraînera donc un kurtosis plus élevé, ce qui réduira l’aire partagée sous les courbes et donc la probabilité d’une erreur de type II.
Petite image:
Je ne comprends pas comment un échantillon de plus grande taille réduira la variance.
Je suppose que vous ne faites que calculer la variance de l’échantillon et l’utiliser comme paramètre dans une distribution normale.
J'ai essayé:
- googler , mais la plupart des réponses acceptées ont 0 upvotes ou sont simplement des exemples
- réflexion : selon la loi des grands nombres, chaque valeur devrait éventuellement se stabiliser autour de sa valeur probable selon la distribution normale que nous supposons. Et la variance devrait donc converger vers la variance de notre distribution normale supposée. Mais quelle est la variance de cette distribution normale et s’agit-il d’une valeur minimale, c’est-à-dire pouvons-nous être sûrs que la variance de notre échantillon diminue à cette valeur?
Réponses:
Les écarts types des moyennes sont inférieurs aux écarts types des observations individuelles. [Je supposerai ici des observations indépendantes identiques distribuées avec une variance de population finie; quelque chose de similaire peut être dit si vous relâchez les deux premières conditions.]
C'est une conséquence du simple fait que l'écart type de la somme de deux variables aléatoires est inférieur à la somme des écarts-types (il ne peut être égal lorsque les deux variables sont parfaitement corrélées).
En fait, lorsque vous avez affaire à des variables aléatoires non corrélées, nous pouvons dire quelque chose de plus spécifique: la variance d'une somme de variables est la somme de leurs variances.
Cela signifie qu'avec variables (ou même simplement non corrélées) de même distribution, la variance de la moyenne est la variance d'un individu divisée par la taille de l'échantillon .n
De manière correspondante avec variables (ou même simplement non corrélées) avec la même distribution, l'écart-type de leur moyenne est l'écart-type d'un individu divisé par la racine carrée de la taille de l'échantillon:n
Ainsi, à mesure que vous ajoutez plus de données, vous obtenez des estimations de plus en plus précises des moyennes de groupe. Un effet similaire s'applique aux problèmes de régression.
Comme nous pouvons obtenir des estimations plus moyennes des moyennes en augmentant la taille de l’échantillon, nous sommes plus en mesure de distinguer les moyennes qui sont proches les unes des autres - même si les distributions se chevauchent un peu, en prenant un échantillon de grande taille, population signifie avec suffisamment de précision pour dire qu’ils ne sont pas les mêmes.
la source
La variabilité qui diminue lorsque N augmente, correspond à la variabilité de la moyenne de l'échantillon, souvent exprimée sous forme d'erreur standard. Ou, en d'autres termes, la certitude de la véracité de la moyenne de l'échantillon augmente.
Imaginez que vous meniez une expérience dans laquelle vous collectez 3 hommes et 3 femmes et mesurez leur hauteur. Dans quelle mesure êtes-vous certain que les hauteurs moyennes de chaque groupe sont la véritable moyenne des populations distinctes d'hommes et de femmes? Je devrais penser que vous ne seriez pas très certain du tout. Vous pouvez facilement collecter de nouveaux échantillons de 3 et trouver de nouveaux moyens à plusieurs centimètres des premiers. Un grand nombre d'expériences répétées comme celle-ci pourraient même aboutir à ce que les femmes soient déclarées plus grandes que les hommes, car les moyennes varieraient beaucoup. Avec un faible N, vous n’avez pas beaucoup de certitude dans la moyenne de l’échantillon et cela varie beaucoup d’un échantillon à l’autre.
Imaginez maintenant 10 000 observations dans chaque groupe. Il va être assez difficile de trouver de nouveaux échantillons de 10 000 échantillons dont les moyens diffèrent beaucoup les uns des autres. Ils seront beaucoup moins variables et vous serez plus sûr de leur précision.
Voici une petite simulation en R pour démontrer la relation entre une erreur type et l’écart type de la moyenne de nombreuses réplications de l’expérience initiale. Dans ce cas, nous commencerons par une moyenne de population de 100 et un écart-type de 15.
Notez que l’écart type final est proche de l’erreur type théorique. En jouant avec la variable n ici, vous pouvez voir que la mesure de la variabilité diminuera à mesure que n augmente.
[En passant, le kurtosis dans les graphiques ne change pas vraiment (en supposant qu'il s'agisse de distributions normales). Réduire la variance ne change pas le kurtosis, mais la distribution semblera plus étroite. La seule façon d’examiner visuellement les changements de kurtosis est de placer les distributions à la même échelle.]
la source
Si vous voulez savoir quel est le poids moyen des citoyens américains, alors, dans le cas idéal, demandez immédiatement à chaque citoyen d'intervenir sur la balance et de collecter les données. Vous obtiendrez une réponse exacte . C'est très difficile, alors peut-être pourriez-vous amener quelques citoyens à monter à l'échelle, à calculer la moyenne et à avoir une idée de ce qu'est la moyenne de la population. Vous attendriez-vous à ce que la moyenne de l'échantillon soit exactement égale à la moyenne de la population? J'espère que non.
Maintenant, seriez-vous d'accord pour dire que si vous avez de plus en plus de monde, nous nous rapprocherions de la population moyenne? Nous devrions, non? En fin de compte, le plus grand nombre de personnes que nous pouvons obtenir est une population entière, et sa moyenne correspond à ce que nous recherchons. C'est l'intuition.
Ce fut une expérience de pensée idéalisée. En réalité, il y a des complications. Je vais vous en donner deux.
la source
Je crois que la loi des grands nombres explique pourquoi la variance (erreur type) diminue lorsque la taille de l'échantillon augmente. L'article de Wikipedia sur ceci dit:
En termes de théorème de limite centrale:
Lors de la sélection d'un échantillon aléatoire unique, plus l'échantillon est grand, plus la moyenne de l'échantillon est proche de la moyenne de la population (dans la citation ci-dessus, pensez au "nombre d'essais" à la "taille de l'échantillon", chaque "essai" est donc une observation. ) Par conséquent, lors du tirage d'un nombre infini d'échantillons aléatoires, la variance de la distribution d'échantillonnage sera d'autant plus faible que la taille de chaque échantillon est grande.
En d'autres termes, la forme de la cloche sera plus étroite lorsque chaque échantillon est grand au lieu de petit, car ainsi, la moyenne de chaque échantillon sera plus proche du centre de la cloche.
la source
À mesure que la taille de l'échantillon augmente, la variance de l'échantillon (variation entre les observations) augmente, mais la variance de la moyenne de l'échantillon (erreur type) diminue et donc la précision augmente.
la source