J'essaie d'apprendre les statistiques parce que je trouve que c'est tellement répandu que cela m'interdit d'apprendre certaines choses si je ne les comprends pas correctement. J'ai du mal à comprendre cette notion de distribution d'échantillonnage des moyennes d'échantillonnage. Je ne comprends pas comment certains livres et sites l'ont expliqué. Je pense que j'ai une compréhension mais je ne sais pas si c'est correct. Ci-dessous est ma tentative de le comprendre.
Lorsque nous parlons d'un phénomène prenant une distribution normale, il s'agit généralement (pas toujours) de la population.
Nous voulons utiliser des statistiques inférentielles pour prédire certaines choses sur une population, mais nous n'avons pas toutes les données. Nous utilisons un échantillonnage aléatoire et chaque échantillon de taille n est tout aussi susceptible d'être sélectionné.
Nous prenons donc beaucoup d'échantillons, disons 100, puis la distribution des moyennes de ces échantillons sera approximativement normale selon le théorème de la limite centrale. La moyenne des moyennes de l'échantillon se rapprochera de la moyenne de la population.
Maintenant, ce que je ne comprends pas, c'est la plupart du temps que vous voyez "Un échantillon de 100 personnes…" Ne faudrait-il pas 10 ou 100 échantillons de 100 personnes pour approximer la population de la moyenne? Ou est-ce le cas que nous pouvons prélever un seul échantillon suffisamment grand, disons 1000, puis dire que la moyenne se rapprochera de la moyenne de la population? OU prenons-nous un échantillon de 1 000 personnes, puis prenons 100 échantillons aléatoires de 100 personnes dans chaque échantillon de ces 1 000 personnes originales que nous avons prises, puis utilisons-les comme approximation?
Est-ce que le fait de prélever un échantillon suffisamment grand pour approximer la moyenne fonctionne (presque) toujours? La population doit-elle même être normale pour que cela fonctionne?
la source
sample std deviation / square root(n)
- la racine carrée de n nous indique que nous obtenons des rendements décroissants sur la précision de l'estimation pour des incréments fixes comme taille d'échantillon s'agrandit (par exemple, le fait de passer de 10 à 20 personnes dans un échantillon améliore davantage la précision des estimations que de passer de 210 à 220 personnes.)la source
La distribution d'échantillonnage de la moyenne est la distribution de TOUS les échantillons d'une taille donnée. La moyenne de la distance d'échantillonnage est égale à la moyenne de la population. Lorsque nous parlons de la distance d'échantillonnage de la moyenne pour des échantillons d'une taille donnée, nous ne parlons pas d'un échantillon ou même d'un millier d'échantillons, mais de tous les échantillons.
la source
L'écart d'échantillonnage de la moyenne n'a rien à voir avec les intervalles de confiance. C'est un autre concept. Pour l'échantillonnage dist, la population peut être normale ou non. A) Si la pop est normale, la distance samp de la moyenne sera normale pour n'importe quelle taille d'échantillon. b) Si la pop n'est pas normale, 1) la distance d'échantillonnage de la moyenne NE PEUT PAS être considérée comme normale, sauf si la taille de l'échantillon est de 30 ou plus. Le théorème de la limite centrale nous dit alors que la dist d'échantillonnage peut être considérée comme normale.
Vous parlez de prédire. La prédiction n'a rien à voir avec cela non plus. Vous insérez trop de samp dist. La distance samp est simplement Tous les échantillons, puis la moyenne est prise. Et la moyenne de tous ces échantillons, mu sous x bar, est égale à la moyenne de la population, mu et écart d'échantillonnage standard, sigma sous x bar = sigma divisé par la racine carrée de n. (Nous ne parlerons pas du facteur de correction de la pop finie. Prenez votre statistique pour sa valeur nominale. Ne lisez pas trop dans un concept. Comprenez le concept de base.
PS La distance samp de la moyenne n'a rien à voir avec l'abput pr
la source
J'ai pensé à des problèmes de Big Data et j'ai regardé certains de ces articles ce matin. Je ne pense pas que ce soit un problème trivial du tout, concernant la différence entre l'analyse des 1000 données comme un ensemble et l'analyse de 10 ensembles de 100. En théorie , si l'hypothèse nulle est vraie que les données sont iid, cela ne fait pas différence. Cependant, le regroupement et les modèles dans les données ne sont pas traités du tout si l'on prend simplement la moyenne des 1000 données et cite la moyenne estimée et l'erreur standard associée.
La conclusion à laquelle je suis arrivé, en regardant certaines pages sur stackexchange et wikipedia, est que le big data permet de voir l' évidence . S'il y a des caractéristiques intéressantes dans la population dans son ensemble, un ensemble de données volumineuses les montrerait clairement le jour. Donc, si j'avais un très grand ensemble de données, que je pouvais regarder visuellement, je ne sauterais pas et ne prendrais pas de brèves mesures sommaires sans chercher d'abord des fonctionnalités très évidentes. Dès mes premières leçons en inférence statistique, on m'a appris à regarder les graphiques et les visualisations des données comme un premier passage. Je ne saurais trop insister là-dessus. Si l'ensemble de données est trop grand pour qu'un être humain puisse le voir sur un écran, il doit être sous-échantillonné à une résolution qui est lisible par l'homme.
la source