Comment la distribution d'échantillonnage des moyennes de l'échantillon se rapproche-t-elle de la moyenne de la population?

16

J'essaie d'apprendre les statistiques parce que je trouve que c'est tellement répandu que cela m'interdit d'apprendre certaines choses si je ne les comprends pas correctement. J'ai du mal à comprendre cette notion de distribution d'échantillonnage des moyennes d'échantillonnage. Je ne comprends pas comment certains livres et sites l'ont expliqué. Je pense que j'ai une compréhension mais je ne sais pas si c'est correct. Ci-dessous est ma tentative de le comprendre.

Lorsque nous parlons d'un phénomène prenant une distribution normale, il s'agit généralement (pas toujours) de la population.

Nous voulons utiliser des statistiques inférentielles pour prédire certaines choses sur une population, mais nous n'avons pas toutes les données. Nous utilisons un échantillonnage aléatoire et chaque échantillon de taille n est tout aussi susceptible d'être sélectionné.

Nous prenons donc beaucoup d'échantillons, disons 100, puis la distribution des moyennes de ces échantillons sera approximativement normale selon le théorème de la limite centrale. La moyenne des moyennes de l'échantillon se rapprochera de la moyenne de la population.

Maintenant, ce que je ne comprends pas, c'est la plupart du temps que vous voyez "Un échantillon de 100 personnes…" Ne faudrait-il pas 10 ou 100 échantillons de 100 personnes pour approximer la population de la moyenne? Ou est-ce le cas que nous pouvons prélever un seul échantillon suffisamment grand, disons 1000, puis dire que la moyenne se rapprochera de la moyenne de la population? OU prenons-nous un échantillon de 1 000 personnes, puis prenons 100 échantillons aléatoires de 100 personnes dans chaque échantillon de ces 1 000 personnes originales que nous avons prises, puis utilisons-les comme approximation?

Est-ce que le fait de prélever un échantillon suffisamment grand pour approximer la moyenne fonctionne (presque) toujours? La population doit-elle même être normale pour que cela fonctionne?

tri par fusion
la source

Réponses:

9

Je pense que vous pourriez confondre la distribution d'échantillonnage attendue d'une moyenne (que nous calculerions sur la base d'un échantillon unique) avec le processus (généralement hypothétique) de simulation de ce qui se passerait si nous procédions à plusieurs reprises à un échantillonnage répété de la même population.

Pour une taille d'échantillon donnée (même n = 2), nous dirions que la moyenne de l'échantillon (des deux personnes) estime la moyenne de la population. Mais la précision de l'estimation - c'est-à-dire la qualité du travail que nous avons accompli pour estimer la moyenne de la population sur la base de nos données d'échantillonnage, comme le reflète l'erreur standard de la moyenne - sera plus faible que si nous avions un 20 ou 200 les gens de notre échantillon. C'est relativement intuitif (des échantillons plus grands donnent une meilleure précision d'estimation).

Nous utiliserions alors l'erreur standard pour calculer un intervalle de confiance, qui (dans ce cas) est basé sur la distribution normale (nous utiliserions probablement la distribution t dans de petits échantillons car l'écart-type de la population est souvent sous-estimé dans un petit échantillon, conduisant à des erreurs standard trop optimistes.)

En réponse à votre dernière question, non, nous n'avons pas toujours besoin d'une population normalement distribuée pour appliquer ces méthodes d'estimation - le théorème central limite indique que la distribution d'échantillonnage d'une moyenne (estimée, encore une fois, à partir d'un échantillon unique) aura tendance à suivre une distribution normale même lorsque la population sous-jacente a une distribution non normale. Ceci est généralement approprié pour des tailles d'échantillon "plus grandes".

Cela dit, lorsque vous avez une population non normale à partir de laquelle vous échantillonnez, la moyenne peut ne pas être une statistique récapitulative appropriée, même si la distribution d'échantillonnage pour cette moyenne peut être considérée comme fiable.

James Stanley
la source
alors suis-je essentiellement trop accroché à la compréhension de ce fondement théorique du fonctionnement de certaines de ces choses? La vraie chose intéressante ici est l'intervalle de confiance? En d'autres termes, si je voulais publier une étude sur, disons, le nombre d'heures qu'un adulte moyen dort aux États-Unis, et que je prends un échantillon de 5 000 et que mon intervalle de confiance est de 99,9%, la moyenne se situe entre 6,46 et 6,54, alors je peux y aller à venir et publier mon étude en disant "avec confiance" que la moyenne des adultes aux États-Unis dort 6,5 heures?
mergesort
2
Où vous avez dit: " dire" avec confiance "que la moyenne des adultes aux États-Unis dort 6,5 heures ". Eh bien, non, vous pouvez être sûr que ce n'est pas en moyenne 6,5 heures en moyenne. Vous ne pouvez être sûr que c'est assez proche de 6,5 heures, ou vous pouvez être sûr que c'est '6,5 heures aux 5 minutes les plus proches', ou quelque chose du genre. Seules les plages auront un certain niveau de confiance qui leur est associé.
Glen_b -Reinstate Monica
1
@Glen_b va au cœur du problème - nous ne pouvons jamais dire que nous sommes convaincus d'avoir estimé exactement la valeur d'une population, mais plutôt que nous avons une idée de l'exactitude de notre processus d'estimation.
James Stanley
@angrymonkey Je pense qu'il est toujours utile d'obtenir les concepts sous-jacents à l'approche d'échantillonnage répété (simulé). De plus, pour estimer, on n'a pas besoin de tailles d'échantillon «énormes» - la formule de l'erreur standard d'une moyenne est sample std deviation / square root(n)- la racine carrée de n nous indique que nous obtenons des rendements décroissants sur la précision de l'estimation pour des incréments fixes comme taille d'échantillon s'agrandit (par exemple, le fait de passer de 10 à 20 personnes dans un échantillon améliore davantage la précision des estimations que de passer de 210 à 220 personnes.)
James Stanley
super ... merci beaucoup pour l'aide. donc un IC nous permet juste de dire que je suis sûr à 95% que la personne moyenne dort entre 6,45 et 6,56 heures par nuit? alors pourquoi certains articles font ces affirmations définitives comme la personne moyenne regarde 4,5 heures de télévision par jour? l'intervalle de confiance est sûrement quelque chose comme 95% 4,43 et 4,56
mergesort
10
  • σ2/nnn
  • Si vous prenez plusieurs échantillons indépendants, chaque moyenne d'échantillon sera normale et la moyenne des moyennes sera normale et tendra vers la vraie moyenne.
  • Si vos échantillons proviennent vraiment de la même distribution (par exemple 100 échantillons de 10 chacun), vous ferez les mêmes déductions que si vous preniez un grand échantillon de 1000. (Mais dans le monde réel, des échantillons distincts diffèrent probablement de la même manière ne peut pas ignorer; voir "conception de blocs randomisés".)
  • n
  • Si vous prenez 100 échantillons de 10 chacun, la moyenne de l'échantillon aura une distribution plus normale que les données originales, mais moins normale que la distribution de la moyenne globale.
  • Prendre un grand échantillon vous rapprochera également de la normalité.
  • Si vous voulez estimer la moyenne de la population, cela ne fait aucune différence (en théorie) si vous prenez un grand échantillon de 1000 ou 100 échantillons de 10.
  • Mais en pratique, la théorie de l'échantillonnage peut diviser l'échantillon pour des raisons de regroupement, de stratification et d'autres problèmes. Ils prennent ensuite en compte le schéma d'échantillonnage lors de leur estimation. Mais c'est vraiment important pour une autre question.
Placidia
la source
dans la plupart des manuels, ils vous font comprendre cette notion de distribution d'échantillonnage des moyennes d'échantillonnage. En substance, cela vous dit: "Hé, regardez, si vous prenez beaucoup d'échantillons, cela a tendance à être normal et se rapproche de la moyenne de la population". Ensuite, ils vous disent que si vous prenez des échantillons suffisamment grands, vous ne pouvez en trier qu'un seul. La distribution d'échantillonnage de l'échantillon est-elle censée vous faire croire que vous pouvez prélever un grand échantillon? En d'autres termes, quel est le but de le comprendre? Est-ce juste pour vous aider à saisir l'intuition derrière la prise d'un grand échantillon? ignorer l'idée d'échantillonner theo
mergesort
Je pense que @ "James Stanley" répond très bien à cela. Dans tous les cas réels, vous prenez un échantillon, calculez la moyenne de l'échantillon, et c'est votre estimation.
Placidia
1

La distribution d'échantillonnage de la moyenne est la distribution de TOUS les échantillons d'une taille donnée. La moyenne de la distance d'échantillonnage est égale à la moyenne de la population. Lorsque nous parlons de la distance d'échantillonnage de la moyenne pour des échantillons d'une taille donnée, nous ne parlons pas d'un échantillon ou même d'un millier d'échantillons, mais de tous les échantillons.

Allen Moser
la source
0

L'écart d'échantillonnage de la moyenne n'a rien à voir avec les intervalles de confiance. C'est un autre concept. Pour l'échantillonnage dist, la population peut être normale ou non. A) Si la pop est normale, la distance samp de la moyenne sera normale pour n'importe quelle taille d'échantillon. b) Si la pop n'est pas normale, 1) la distance d'échantillonnage de la moyenne NE PEUT PAS être considérée comme normale, sauf si la taille de l'échantillon est de 30 ou plus. Le théorème de la limite centrale nous dit alors que la dist d'échantillonnage peut être considérée comme normale.

Vous parlez de prédire. La prédiction n'a rien à voir avec cela non plus. Vous insérez trop de samp dist. La distance samp est simplement Tous les échantillons, puis la moyenne est prise. Et la moyenne de tous ces échantillons, mu sous x bar, est égale à la moyenne de la population, mu et écart d'échantillonnage standard, sigma sous x bar = sigma divisé par la racine carrée de n. (Nous ne parlerons pas du facteur de correction de la pop finie. Prenez votre statistique pour sa valeur nominale. Ne lisez pas trop dans un concept. Comprenez le concept de base.

PS La distance samp de la moyenne n'a rien à voir avec l'abput pr

Allen Moser
la source
Je me demande si cette réponse pourrait être combinée avec votre 1ère réponse, plutôt que saisie comme une autre réponse. Nous préférons généralement que vous ayez 1 réponse par fil. (Il existe cependant des exceptions.) Vous pouvez ajouter du matériel à une réponse existante, ou apporter des modifications, en cliquant sur le "modifier" gris en bas à gauche.
gung - Rétablir Monica
0

J'ai pensé à des problèmes de Big Data et j'ai regardé certains de ces articles ce matin. Je ne pense pas que ce soit un problème trivial du tout, concernant la différence entre l'analyse des 1000 données comme un ensemble et l'analyse de 10 ensembles de 100. En théorie , si l'hypothèse nulle est vraie que les données sont iid, cela ne fait pas différence. Cependant, le regroupement et les modèles dans les données ne sont pas traités du tout si l'on prend simplement la moyenne des 1000 données et cite la moyenne estimée et l'erreur standard associée.

La conclusion à laquelle je suis arrivé, en regardant certaines pages sur stackexchange et wikipedia, est que le big data permet de voir l' évidence . S'il y a des caractéristiques intéressantes dans la population dans son ensemble, un ensemble de données volumineuses les montrerait clairement le jour. Donc, si j'avais un très grand ensemble de données, que je pouvais regarder visuellement, je ne sauterais pas et ne prendrais pas de brèves mesures sommaires sans chercher d'abord des fonctionnalités très évidentes. Dès mes premières leçons en inférence statistique, on m'a appris à regarder les graphiques et les visualisations des données comme un premier passage. Je ne saurais trop insister là-dessus. Si l'ensemble de données est trop grand pour qu'un être humain puisse le voir sur un écran, il doit être sous-échantillonné à une résolution qui est lisible par l'homme.

Olivia Grigg
la source
Veuillez ne pas signer vos messages - c'est à cela que sert le nom d'utilisateur en bas à droite de votre message.
Glen_b -Reinstate Monica