Inférence statistique lorsque l'échantillon «correspond» à la population

47

Imaginez que vous deviez faire un rapport sur le nombre de candidats qui passent chaque année un test donné. Il semble assez difficile de déduire le pourcentage de succès observé, par exemple, sur une population plus large en raison de la spécificité de la population cible. Vous pouvez donc considérer que ces données représentent l’ensemble de la population.

Les résultats des tests indiquant que les proportions d'hommes et de femmes sont différentes sont-ils vraiment corrects? Un test comparant les proportions observées et théoriques semble-t-il être correct puisque vous considérez une population entière (et non un échantillon)?

pbneau
la source

Réponses:

31

Il peut y avoir des opinions divergentes à ce sujet, mais je traiterais les données de population comme un échantillon et supposerais une population hypothétique, puis ferais des déductions de la manière habituelle. Une façon de penser à cela est qu’il existe un processus sous-jacent de génération de données responsable des données collectées, la distribution de la "population".

Dans votre cas particulier, cela pourrait être encore plus logique puisque vous aurez des cohortes à l'avenir. Ensuite, votre population est constituée de cohortes qui passent le test, même dans le futur. De cette manière, vous pouvez prendre en compte les variations basées sur le temps si vous avez des données pour plus d'un an, ou essayer de prendre en compte les facteurs latents via votre modèle d'erreur. En bref, vous pouvez développer des modèles plus riches avec un plus grand pouvoir explicatif.

ars
la source
4
Je viens de découvrir ce billet de A Gelman: En quoi l'analyse statistique diffère-t-elle lorsque l'on analyse l'ensemble de la population plutôt qu'un échantillon? , j.mp/cZ1WSI . Un bon point de départ pour des opinions divergentes sur le concept de "super-population".
chl
2
@chl: intéressant - me rappelle que Gelman avait présenté dans son article sur ANOVA une inférence population finie / super comparable à des effets fixes / aléatoires [ stat.columbia.edu/~gelman/research/published/econanova3.pdf ].
ars
+1 Je viens de revenir à cela à nouveau (via Google). Je pense que votre réponse est sur place.
Shane
25

En fait, si vous êtes vraiment convaincu que vous avez toute la population, vous n'avez même pas besoin d'entrer dans les statistiques. Ensuite, vous savez exactement quelle est la différence et il n’ya aucune raison de la tester. Une erreur classique consiste à utiliser la signification statistique en tant que signification "pertinente". Si vous avez échantillonné la population, la différence est ce qu'elle est.

D'autre part, si vous reformulez votre hypothèse, les candidats peuvent alors être considérés comme un échantillon de candidats possibles, ce qui permettrait d'effectuer des tests statistiques. Dans ce cas, vous devez vérifier en général si les hommes et les femmes diffèrent dans le test en question.

Comme Ars l'a dit, vous pouvez utiliser des tests sur plusieurs années et ajouter le temps comme facteur aléatoire. Mais si votre intérêt est vraiment dans les différences entre ces candidats sur ce test particulier, vous ne pouvez pas utiliser la généralisation et le test est insensé.

Joris Meys
la source
15

Traditionnellement, l'inférence statistique est enseignée dans le contexte des échantillons de probabilité et de la nature de l'erreur d'échantillonnage. Ce modèle constitue la base du test de signification. Cependant, il existe d'autres moyens de modéliser les écarts systématiques par rapport au hasard et il s'avère que nos tests paramétriques (basés sur l'échantillonnage) tendent à être de bonnes approximations de ces alternatives.

Les tests paramétriques des hypothèses reposent sur la théorie de l'échantillonnage pour produire des estimations de l'erreur probable. Si un échantillon d'une taille donnée est prélevé dans une population, la connaissance de la nature systématique de l'échantillonnage rend les tests et les intervalles de confiance significatifs. Avec une population, la théorie de l'échantillonnage n'est tout simplement pas pertinente et les tests n'ont pas de sens au sens traditionnel du terme. L'inférence est inutile, il n'y a rien à déduire, il y a juste la chose ... le paramètre lui-même.

Certains contournent cela en faisant appel aux superpopulations que représente le recensement actuel. Je trouve ces appels peu convaincants - les tests paramétriques reposent sur l’échantillonnage probabiliste et ses caractéristiques. Une population à un moment donné peut être un échantillon d'une population plus importante dans le temps et le lieu. Cependant, je ne vois aucun moyen légitime de soutenir qu'il s'agit d'un échantillon aléatoire (ou plus généralement de toute forme de probabilité). Sans échantillon de probabilité, la théorie de l'échantillonnage et la logique de test traditionnelle ne s'appliquent tout simplement pas. Vous pouvez tout aussi bien tester sur la base d'un échantillon de commodité.

Clairement, pour accepter les tests lors de l'utilisation d'une population, nous devons nous dispenser de la base de ces tests dans les procédures d'échantillonnage. Une façon de le faire est de reconnaître le lien étroit qui existe entre nos tests théoriques de l’échantillon - tels que t, Z et F - et les procédures de randomisation. Les tests de randomisation sont basés sur l'échantillon en question. Si je collecte des données sur le revenu des hommes et des femmes, le modèle de probabilité et la base de nos estimations d'erreur sont des allocations aléatoires répétées des valeurs de données réelles. Je pourrais comparer les différences observées entre les groupes à une distribution basée sur cette randomisation. (Nous le faisons tout le temps dans des expériences, d'ailleurs, où l'échantillonnage aléatoire à partir d'un modèle de population est rarement approprié).

Or, il s’avère que les tests théoriques sur échantillons sont souvent de bonnes approximations des tests de randomisation. Donc, en fin de compte, je pense que les tests des populations sont utiles et significatifs dans ce cadre et peuvent aider à distinguer les variations systématiques des variations aléatoires - comme avec les tests basés sur des échantillons. La logique utilisée pour y arriver est un peu différente, mais cela n’a pas beaucoup d’incidence sur la signification pratique et l’utilisation des tests. Bien sûr, il serait peut-être préférable d’utiliser des tests de randomisation et de permutation directement, étant donné qu’ils sont facilement disponibles avec toute notre puissance de calcul moderne.

Brett
la source
3
+1 pour la discussion sensible; quelques points cependant. Un mécanisme déductif n'est pas disponible pour l'analyse de la population, mais dans de nombreux cas de modélisation, je me demanderais si on a déjà les données de population pour commencer - souvent, il n'est pas très difficile de percer. Donc, ce n'est pas toujours un appel à une super population comme moyen de déployer l'inférence. Plutôt que de "superpopulation", le meilleur moyen est de supposer un processus de génération de données donnant, par exemple, le test d'une année à l'autre prenant les cohortes en question. C'est là que la composante stochastique se pose.
ars
2
Je ne pense pas qu'il y ait de désaccord ici, à l'exception du manque de mécanisme inférentiel pour l'analyse de la population. Les tests de randomisation sont applicables aux populations et peuvent raisonnablement vérifier si le processus de génération de données est probablement dû à un processus de génération aléatoire par rapport à un processus de génération systématique. Ils ne supposent pas un échantillonnage aléatoire et constituent un test plutôt direct du hasard par rapport à la variation systématique. Nos tests traditionnels leur conviennent parfaitement.
Brett
C’est vrai en ce qui concerne "le manque de mécanismes inférentiels". Des mots insouciants de ma part, d’autant plus que j’ai aimé l’argument que vous avez soulevé au sujet des tests de randomisation dans votre réponse.
ars
Pardon. J'ai du mal à comprendre comment calculer les permutations et quelles conclusions je pourrai tirer pour elles.
pbneau
Le bootstrap n'est-il pas une alternative valable? Comment l'amorçage n'arrive-t-il pas à résoudre le besoin de faire l'une ou l'autre de ces hypothèses?
Chernoff
3

Supposons que les résultats indiquent que les candidats diffèrent selon le sexe. Par exemple, la proportion de ceux qui ont terminé les tests est la suivante: 40% de femmes et 60% d’hommes. Pour suggérer l'évidence, 40% est différent de 60%. Maintenant, ce qui est important, c'est de décider: 1) de votre population d'intérêt; 2) comment vos observations se rapportent à la population d'intérêt. Voici quelques détails sur ces deux problèmes:

  1. Si votre population d'intérêt est uniquement constituée des candidats que vous avez observés (par exemple, les 100 candidats ayant postulé dans une université en 2016), vous n'avez pas besoin de déclarer des tests de signification statistique. En effet, votre population d'intérêt a été entièrement échantillonnée ... vous ne vous souciez que des 100 candidats pour lesquels vous disposez de données complètes. C'est-à-dire que 60% est, point final, différent de 40%. Le type de question à laquelle répond cette question est la suivante: existe-t-il des différences entre les sexes dans la population de 100 personnes qui s'appliquent au programme? C'est une question descriptive et la réponse est oui.

  2. Cependant, de nombreuses questions importantes concernent ce qui se passera dans différents contextes. En d’autres termes, de nombreux chercheurs souhaitent dégager des tendances du passé qui nous aident à prévoir (et à planifier) ​​l’avenir. Un exemple de question à cet égard serait: quelle est la probabilité que les futurs tests des candidats soient différents selon le sexe? La population d'intérêt est alors plus large que dans le scénario n ° 1 ci-dessus. À ce stade, une question importante à poser est la suivante: vos données observées sont-elles susceptibles d’être représentatives des tendances futures? C'est une question d'inférence, et sur la base des informations fournies par l'affiche originale, la réponse est: nous ne savons pas.

En résumé, les statistiques que vous déclarez dépendent du type de question à laquelle vous souhaitez répondre.

Penser à la conception de la recherche fondamentale peut être plus utile (essayez ici: http://www.socialresearchmethods.net/kb/design.php ). Penser aux superpopulations peut être utile si vous souhaitez des informations plus avancées (voici un article qui pourrait vous aider: http://projecteuclid.org/euclid.ss/1023798999#ui-tabs-1 ).

dca
la source
2

Si vous considérez que tout ce que vous mesurez est un processus aléatoire, alors oui, les tests statistiques sont pertinents. Prenez, par exemple, une pièce de monnaie dix fois pour voir si elle est juste. Vous obtenez 6 têtes et 4 queues - que concluez-vous?

James
la source
1
Je ne comprends pas vraiment comment la conclusion à laquelle vous êtes parvenue à propos de lancer une pièce de monnaie est liée à la question posée. Peut-être que vous pourriez développer un peu sur ce point? Les tests statistiques semblent être pertinents dans la mesure où ils permettent d'inférer les résultats observés à une population plus large, qu'il s'agisse d'une population de référence ou d'une population générale. La question qui se pose ici semble être la suivante: étant donné que l’échantillon est proche de la population des candidats au test pour une période déterminée (ici, un an), l’inférence classique est-elle le bon moyen de prendre une décision sur les différences possibles au niveau individuel?
chl
1
@chl Oui, mais OP semble essayer de déduire une probabilité de succès sous-jacente. Les tests comparent les proportions observées à la distribution théorique pour déterminer s’il existe une différence pour un niveau de confiance donné. Vous testez toute forme d’aléatoire, pas seulement une erreur d’échantillonnage aléatoire.
James le