Quelle est la différence entre une population et un échantillon?

38

Quelle est la différence entre une population et un échantillon? Quelles variables et statistiques communes sont utilisées pour chacune d’elles, et comment se rapportent-elles?

Baltimark
la source

Réponses:

36

La population est l'ensemble des entités à l'étude. Par exemple, la taille moyenne des hommes. Cette population est hypothétique car elle inclut tous les hommes qui ont vécu, sont en vie et vivront dans le futur. J'aime cet exemple car il montre clairement que nous, en tant qu'analystes, choisissons la population que nous souhaitons étudier. En règle générale, il est impossible d’enquêter / de mesurer l’ensemble de la population car tous les membres ne sont pas observables (par exemple, des hommes qui existeront à l’avenir). S'il est possible de dénombrer toute la population, cela est souvent coûteux et prendrait beaucoup de temps. Dans l'exemple ci-dessus, nous avons une population "d'hommes" et un paramètre d'intérêt, leur taille.

Au lieu de cela, nous pourrions prendre un sous-ensemble de cette population appelé échantillon et l’utiliser pour tirer des conclusions sur la population à l’étude, compte tenu de certaines conditions. Ainsi, nous pourrions mesurer la taille moyenne des hommes dans un échantillon de la population, que nous appelons une statistique, et l'utiliser pour tirer des conclusions sur le paramètre d'intérêt de la population. C'est une inférence car il y aura une certaine incertitude et une certaine imprécision dans la formulation de conclusions sur la population à partir d'un échantillon. Cela devrait être évident - notre échantillon compte moins de membres que notre population et nous avons donc perdu certaines informations.

Il existe de nombreuses façons de sélectionner un échantillon et son étude s'appelle la théorie de l'échantillonnage. Une méthode couramment utilisée est appelée échantillonnage aléatoire simple (SRS). Dans le SRS, chaque membre de la population a une probabilité égale d'être inclus dans l'échantillon, d'où le terme "aléatoire". Il existe de nombreuses autres méthodes d'échantillonnage, telles que l'échantillonnage stratifié, l'échantillonnage en grappes, etc., qui présentent toutes des avantages et des inconvénients.

Il est important de se rappeler que l'échantillon que nous tirons de la population n'est qu'un échantillon parmi un grand nombre d'échantillons potentiels. Si dix chercheurs étudiaient tous la même population en tirant leurs propres échantillons, ils pourraient alors obtenir des réponses différentes. Pour revenir à notre exemple précédent, chacun des dix chercheurs peut proposer une taille moyenne d'hommes différente, c'est-à-dire que la statistique en question (taille moyenne) varie d'un échantillon à l'autre. Il s'agit d'une distribution appelée distribution d'échantillonnage. Nous pouvons utiliser cette distribution pour comprendre l'incertitude dans notre estimation du paramètre de population.

La distribution d'échantillonnage de la moyenne de l'échantillon est connue pour être une distribution normale avec un écart type égal à l'écart type de l'échantillon divisé par la taille de l'échantillon. Étant donné que cela pourrait facilement être confondu avec l'écart type de l'échantillon, il est plus commun d'appeler l'écart type de la distribution d'échantillonnage l' erreur type .

Graham Cookson
la source
7
N'est-ce pas un peu inutile d'utiliser "tous les hommes" en tant que population? Je veux dire, il n'y a même pas de consensus sur l'âge de l' homo sapiens , ni sur le fait que l' homo neanderthalensis soit une espèce distincte, encore moins que les hommes de l'outil de pierre utilisant l' homo habilis soient considérés comme des "hommes". Vraisemblablement, les mêmes problèmes se poseront à l'avenir également.
naught101
Dans le dernier paragraphe, je pense qu’il ya un léger manque à gagner, et il devrait se lire ... "égal à l’écart type de l’échantillon divisé par la [racine carrée] de la taille de l’échantillon" en référence à l’ erreur type .
Antoni Parellada
13

La population est l'ensemble des valeurs, ou des individus, qui vous intéressent. L'échantillon est un sous-ensemble de la population et constitue l'ensemble des valeurs que vous utilisez réellement dans votre estimation.

Ainsi, par exemple, si vous voulez connaître la taille moyenne des habitants de la Chine, votre population, c'est-à-dire la population de la Chine. Le problème est qu’il s’agit d’un nombre assez important et que vous ne pourriez pas obtenir de données pour tout le monde. Vous tirez donc un échantillon, c’est-à-dire que vous obtenez des observations ou la hauteur de certaines personnes en Chine (un sous-ensemble de la population, l’échantillon) et vous faites l’inférence sur cette base.

Vivi
la source
Bonne réponse. Je pense que vous devriez aller plus loin dans ce que vous voulez dire par "faites votre inférence sur cette base". C'est un peu la deuxième partie de ma question.
Baltimark
mmm ... je ne comprenais pas vraiment ce que vous vouliez dire par quelles variables et statistiques communes ... Oh, voulez-vous dire que vous utilisez la distribution z si vous avez la variance de population et la distribution t si vous ne disposez que de la variance de l'échantillon et la taille de l'échantillon est petite? Quelque chose dans ce sens?
Vivi
Je voulais en venir au fait que la moyenne et l’écart-type sont des paramètres associés à la population, mais ils sont estimés par la moyenne de l’échantillon ((1 / N) * \ sum (x_i)) et l’écart-type de l’échantillon ((1 / ( N-1)) * \ sum (x_i - x ^ bar) ^ 2).
Baltimark
8

La population est tout dans le groupe d'étude. Par exemple, si vous étudiez le cours des actions Apple, il s’agit des cours historiques, actuels et même de tous les cours à venir. Ou, si vous exploitez une usine d'œufs, ce sont tous les œufs fabriqués par l'usine.

Vous n'avez pas toujours à échantillonner et à faire des tests statistiques. Si votre population est votre famille vivante immédiate, vous n'avez pas besoin d'échantillonnage, car la population est petite.

L'échantillonnage est populaire pour diverses raisons:

  • c'est moins cher qu'un recensement (échantillonnage de la population entière)
  • vous n'avez pas accès aux données futures, vous devez donc échantillonner le passé
  • vous devez détruire certains objets en les testant et vous ne voulez pas tous les détruire (par exemple, des œufs)
Neil McGuigan
la source
2

Lorsque nous pensons au terme «population», nous pensons généralement aux habitants de notre ville, région, État ou pays et à leurs caractéristiques respectives telles que le sexe, l’âge, l’état matrimonial, l’appartenance ethnique, la religion, etc. En statistique, le terme «population» prend un sens légèrement différent. La «population» dans les statistiques inclut tous les membres d'un groupe défini sur lequel nous étudions ou collectons des informations afin de prendre des décisions en fonction de données.

Une partie de la population s'appelle un échantillon. C'est une proportion de la population, une tranche de celle-ci, une partie de celle-ci et toutes ses caractéristiques. Un échantillon est un groupe scientifiquement constitué qui possède les mêmes caractéristiques que la population - s’il est tiré au hasard (cela peut être difficile à croire, mais c’est vrai!)

Les échantillons prélevés au hasard doivent avoir deux caractéristiques:

* Chaque personne a une chance égale d'être sélectionnée pour votre échantillon; et,

* La sélection d'une personne est indépendante de la sélection d'une autre personne.

Ce qui est génial avec les échantillons aléatoires, c'est que vous pouvez généraliser à la population qui vous intéresse. Ainsi, si vous échantillonnez 500 ménages dans votre communauté, vous pouvez généraliser aux 50 000 ménages qui y vivent. Si vous faites correspondre certaines caractéristiques démographiques des 500 à 50 000, vous verrez qu'elles sont étonnamment similaires.

roseleneramas
la source
2
Ceci est fondamentalement correct, si interprété correctement. Je crains que certains lecteurs ne sachent que des échantillons aléatoires simples avec remplacement (qui est le type d’échantillon aléatoire que vous décrivez, il existe d’autres types) reproduisent correctement toutes les caractéristiques de la population. En fait, ils le font rarement. Le point de l'échantillonnage aléatoire est que les différences (inévitables) entre les caractéristiques de l'échantillon et les caractéristiques de la population peuvent être attribuées au processus de sélection aléatoire.
whuber
0

Une population comprend tous les éléments d'un ensemble de données. Un échantillon consiste en une ou plusieurs observations de la population. BOA, A. (2012, 17)

utilisateur91513
la source
2
Lorsque tous les éléments d'un "ensemble de données" sont considérés comme une population, cet ensemble de données est appelé un recensement de la population. Très peu de jeux de données sont des recensements.
whuber