Régression sur l'ensemble de la population

10

Quelle est la signification de l'erreur-type d'un coefficient dans une régression lorsque l'ensemble de la population est inclus?

J'ai été tellement perplexe par cette question. Parce qu'il me semble, les erreurs types n'ont aucun sens lorsque toute la population est incluse - il n'y a pas besoin d'inférence statistique puisque vous avez déjà toute la population.

Mais il est si largement utilisé même par de nombreux articles publiés dans les meilleures revues. Par exemple, si j'examine la relation entre le taux de croissance du PIB d'un pays et sa densité de population, je lance la régression:

GDPi=α+βPopi+γXi+ϵi

avec les 195 pays du monde. Dans ce cas, tous les pays (la population) sont inclus. Mais toute la littérature parle encore de la signification statistique des coefficients.

Quelqu'un pourrait-il expliquer qu'il s'agit d'une mauvaise utilisation de l'inférence statistique lors de la régression sur l'ensemble de la population?

Akira Osawa
la source
Cette question a été répondue dans le réseau de statistiques. Voyez ici . Fondamentalement, les statistiques n'ont aucune pertinence. La "régression" est un dispositif purement mathématique.
luchonacho
@luchonacho Mon opinion est que cette question est sur le sujet ici en ce qui concerne le contenu, nous avons naturellement un certain chevauchement avec stats.SE). Je conviens cependant qu'il s'agit essentiellement d'un doublon. J'ai trouvé une discussion sur ce qu'il faut faire avec les doublons intersites
jmbejara
@jmbejara Merci pour la référence. Bon à savoir.
luchonacho
Cela semble être une autre référence pertinente. Il traite d'une technique connexe appelée inférence de randomisation, comme indiqué dans Athey Imbens (2017). jasonkerwin.com/nonparibus/2017/09/25/…
jmbejara

Réponses:

4

J'avais initialement signalé cette question aux modérateurs pour examiner s'il serait préférable de migrer vers le site de statistiques SE Cross Validated. Mais puisque le PO a introduit un exemple d'économétrie très spécifique, je pense que le concept (très profond) de "population / échantillon" peut être utilement discuté aux fins de cet exemple.

Un premier problème est celui abordé dans la réponse @AdamBailey: si l'on considère "tous les pays du monde" pour une année ou des années données, et qu'il nomme les données "population", l'année suivante devrait appartenir à une population différente. S'il appartient à une population différente, comment utiliser les résultats d'une population pour faire des déductions pour une autre population? Donc, en effet, ici notre «population» est bidimensionnelle , pays et période de temps - et en ce sens, avec l'horizon temporel ouvert, nous n'avons qu'un échantillon entre nos mains.

GDPi,i=1,..n

Nos données ne sont donc qu'une des réalisations combinées possibles de ces variables aléatoires. Ces réalisations sont le fruit non seulement de relations déterministes / techniques / causalité (reflétées dans les coefficients), mais aussi sous l'effet de facteurs intrinsèquement aléatoires. En ce sens, les données ne sont pas une image "pure / typique" de la "population" - elles contiennent du bruit, des perturbations non structurelles, des chocs ponctuels, etc.

Ensuite, cette incertitude se répercutera sur l'estimation des coefficients que nous essayons d'estimer, car nous supposons que ces coefficients décrivent la causalité ou le co-mouvement avant les éléments aléatoires affectant la valeur finale de la variable dépendante.

En raison des deux aspects ci-dessus, parler d '"erreur type des estimations" est tout à fait valable, dans ce cas également, puis appliquez les tests statistiques comme d'habitude.

Alecos Papadopoulos
la source
5

Il est important de considérer quelle est exactement la population sur laquelle une inférence est tirée. Il est facile d'oublier l'aspect temporel dans ce contexte.

Supposons par exemple que l'objectif soit de prévoir le PIB des deux prochaines années pour chaque pays du monde. Ensuite, la population d'intérêt est un ensemble de paires de la forme "pays, année". Il ne s'agit pas simplement de "tous les pays", et même si un modèle de prévision a été estimé par régression sur les données de l'année en cours et des années passées pour chaque pays, cela ne signifie pas que toute la population d'intérêt a été incluse.

Si l'on commence vraiment à partir d'un ensemble de données complet pour l'ensemble de la population d'intérêt, alors tout ce que l'on peut faire est de calculer des statistiques sommaires. Cela pourrait inclure des écarts-types, mais il serait inapproprié d'appeler ces erreurs-types, car ce terme se rapporte à une distribution d'échantillonnage alors que le seul "échantillon" dans ce cas est l'ensemble de la population.

Adam Bailey
la source
Merci beaucoup. Juste pour être plus clair, j'ai mis à jour la question: «tous les pays» dans ce cas sont-ils considérés comme l'ensemble de la population? S'il n'y en a pas, cela signifie qu'ils sont des «échantillons» d'une certaine «superpopulation» - supposons qu'il y a des millions de pays dans «l'univers parallèle», et que les 195 pays sur la terre sont répartis de manière indépendante et identique entre eux et sont échantillonnés au hasard. N'est-ce pas une hypothèse trop farfelue?
Akira Osawa