Est-il judicieux de calculer des intervalles de confiance et de tester des hypothèses lorsque des données de l'ensemble de la population sont disponibles? À mon avis, la réponse est non, car nous pouvons calculer avec précision les vraies valeurs des paramètres. Mais alors, quelle est la proportion maximale de données de la population d'origine qui nous permet d'utiliser les techniques susmentionnées?
10
Réponses:
La première question est celle qui n'a pas de réponse généralement acceptée. Ma propre opinion est comme la vôtre, mais d'autres ont soutenu qu'une population peut être considérée comme un échantillon d'une "superpopulation" où la nature exacte d'une superpopulation varie selon le contexte: par exemple, un recensement de toutes les personnes vivant dans un bâtiment pourrait être considéré comme un échantillon de toutes les personnes vivant dans des bâtiments similaires; un recensement de la population des États-Unis (pas que l'on puisse jamais être vraiment complet) pourrait être considéré comme un échantillon d'une super-population d'Américains qui pourrait un jour exister (ou quelque chose comme ça). Je pense que c'est souvent une excuse pour utiliser des valeurs de p; de nombreux scientifiques dans les domaines de fond ne sont pas à l'aise s'ils n'ont pas de valeur p. (Mais c'est mon avis).
La deuxième question semble un peu étrange pour répondre de manière générale. Quand obtenez-vous un échantillon qui représente (disons) plus de la moitié de la population?
Un plus gros problème sera le biais. Pour en revenir au recensement américain, le problème n'est pas simplement qu'il manque des gens, mais que les gens qui lui manquent ne sont pas un échantillon aléatoire de la population totale; ainsi, même si le recensement obtient des réponses de (pour choisir un nombre) 95% de toutes les personnes, si ces 5% restants sont assez différents, alors les résultats seront biaisés.
la source
Supposons que seulement 2 des 12 membres du comité soient des femmes.
La proportion peut être considérée comme une statistique descriptive de l'ensemble de la population (le comité). Peut-être faudrait-il faire quelque chose pour corriger le déséquilibre, quelle que soit la manière dont il s'est produit.16
Ou cela peut être considéré comme une estimation de la probabilité qu'une femme soit sélectionnée pour le comité - une propriété du processus de sélection. Vous pouvez mettre des intervalles de confiance autour de lui, tester s'il est significativement différent de la moitié (ou d'une autre hypothèse nulle pertinente), etc. Peut-être que le processus doit être modifié pour le rendre équitable.
Les deux vues, descriptive et inférentielle, ne sont pas contradictoires, mais bien distinctes.
La réponse à la deuxième question est qu'il est logique de calculer les intervalles de confiance pour & tester les hypothèses sur un paramètre de population même si un seul individu n'est pas échantillonné. Il suffit de noter que les IC et les tests doivent tenir compte d'une proportion considérable de la population échantillonnée: voir correction de population finie .
la source